Одним из критериев достижения общего искусственного интеллекта должна быть способность машины выявлять человеческие ошибки. Эти области включают, помимо прочего, предвзятость и ошибки в выборке, неправильно маркированные данные, аномалии в данных и т. д. Представьте себе создание машины для воспроизведения ваших ошибок — насколько ужасной она может быть?

Людям свойственно ошибаться!

Часто упускаемой из виду областью науки о данных является анализ используемых методов сбора данных. Я поделюсь своими знаниями и памятным опытом по выявлению лазеек в сборе данных. На данный момент в Medium есть только 19 статей с пометкой "Сбор данных", в то время как колоссальные 83 000 для "Науки о данных". '! Я думаю, что это очень хорошо передает потребность.

Случай 1: президентские выборы в США в 1936 г.

Давайте возьмем прогнозы опроса для президентских выборов в США между Альфредом Лэндоном, республиканским губернатором Канзаса, и действующим президентом Франклином Д. Рузвельтом на 1936 год. Literary Digest предсказал, что Лэндон получит 57% голосов против 43% Рузвельта (это статистика, полученная в ходе опроса). Фактические результаты выборов составили 62% для Рузвельта против 38% для Лэндона (это были параметры, которые пытался измерить опрос). Ошибка выборки в опросе Literary Digest составила колоссальные 19%, что является самым большим показателем среди крупных опросов общественного мнения. Практически вся ошибка выборки была результатом систематической ошибки выборки.

Были две основные причины провала Literary Digest: предвзятость выбора и предвзятость отсутствия ответов. Дальнейшее чтение по ссылке ниже [1].

Случай 2: выявление фиктивных респондентов

Это основано на опросе, проведенном Pew Research (ссылка ниже [2]). Данные показывают ответы «фальшивых респондентов». Аномалия здесь в том, что подавляющее большинство фальшивых респондентов одобрили ObamaCare и президента Трампа — две вещи, которые не должны идти рука об руку! Как говорится, у вас может быть только одно квантовое состояние в каждый момент времени.

Пример 3: Извлечение данных из инвестиционных портфелей

Целью проекта является извлечение сведений об инвестициях, таких как название фонда, номер счета, количество, рыночная цена, процентная ставка, дата истечения срока действия, дата погашения и многие другие поля. Владельцы нашего бизнеса были экспертами в этих областях, и мы полностью доверяли им, чтобы маркировать данные. Наша ошибка — недооценили человеческую способность ошибаться.

Для маркировки были сформированы две команды — обе возглавлялись двумя старшими практикующими врачами. Им были даны инструкции по маркировке около 100+ полей. Старшие члены должны были подводить итоги работы своих команд в конце дня. Эти проверенные данные были отправлены нам для построения моделей.

Среди полей, которые нужно было пометить, было два, в частности, особого характера — дата истечения срока действия и дата погашения. Как бы это ни сбивало нас с толку, мы никогда не думали, что команды по маркировке перепутают эти классы. Команда 1 обозначила срок действия как дата погашения, а команда 2 обозначила ее правильно. Это не привлекло нашего внимания, пока мы не завершили несколько итераций нашего обучения и тестирования с последующим подробным анализом результатов. Потребовалось много обсуждений и усилий, чтобы прийти к выводу, чьей в конечном итоге была ошибка.

Люди тоже не умеют принимать ошибки!

Тем временем поразмышляйте над Статистика; если у вас есть какие-либо вопросы, пожалуйста, обращайтесь к Сэру Майклу.

Я хотел бы услышать о вашем опыте сбора данных. Не стесняйтесь вмешиваться…

Ссылки:

  1. Math.UPENN — Тематическое исследование I: опрос литературного дайджеста 1936 года


2. Pew Research — оценка риска для набора данных онлайн-опросов



3. Образец портфолио

https://institutional.fidelity.com/app/proxy/image?literatureURL=/RD_13569_45521/statement-advisor-p3.png