Десять лет назад, в ноябре 2011 года, профессор психологии Университета Вирджинии Брайан Носек начал коллективное сотрудничество ученых, известное теперь как Проект воспроизводимости. Первой целью этого проекта была попытка воспроизвести результаты 100 статей, опубликованных в 2008 году в ведущих психологических журналах. Результаты, опубликованные 4 года спустя в Science, показали, что 64% ​​статей - почти две трети! - содержали невоспроизводимые утверждения. Попытки повторить их эксперименты не дали статистически значимых результатов. Последующая работа с тех пор показала, что проблема столь же распространена в физике, химии, биологии, медицине и других науках, включая науку о данных.

Статистическое моделирование всегда будет подвержено ошибкам. Ошибки легко сделать, но трудно обнаружить. Для специалиста по данным, работающего в коммерческой среде, такие ошибки наносят ущерб чистой прибыли компании: расходы превышают прогнозируемые, падение доходов и другие интересующие показатели также могут измениться в неблагоприятную сторону. Но если две трети результатов, опубликованных в ведущих журналах, являются невоспроизводимыми, и эти журналы придерживаются самых высоких стандартов рецензирования, и это исследование проводится в оптимальных академических условиях, вдали от давления и ограничений коммерческой жизни - если эти результаты невоспроизводимы, что это означает для промышленной науки о данных?

Вот подсказка. В 2005 году профессор медицины из Стэнфорда Джон Иоаннидис опубликовал Почему большинство опубликованных результатов исследований ложны - теоретический анализ, предсказывающий результаты Носека за целых шесть лет до того, как был основан проект воспроизводимости. По словам Иоаннидиса, есть несколько факторов, которые делают исследования особенно склонными к ошибочным выводам.

Один из них - использование небольших исследовательских групп, которые могут объяснить некоторые выводы в публикациях по психологии - к счастью, отсутствует в мире больших данных. Но это не повод для специалистов по данным радоваться: все другие факторы Иоаннидиса лежат в основе работы в области науки о данных. К ним относятся

  • небольшие размеры эффектов,
  • большое количество проверенных отношений,
  • гибкость в планах, определениях, результатах и ​​аналитических режимах,
  • финансовые интересы,
  • предрассудки среди заинтересованных сторон,
  • будучи горячим полем,
  • одиночные и разрозненные исследователи,
  • нет необходимости предварительно регистрировать проверенные гипотезы и возможность выбрать лучшую гипотезу после того, как станут известны результаты,
  • нет репликации результата,
  • нет обмена данными, и
  • единственное статистическое требование для успеха - это классический 95% доверительный уровень.

Последний критерий в этом списке особенно критичен, потому что, хотя в других областях науки это считается самым основным требованием для демонстрации достоверности результатов, в науке о данных, где большинство алгоритмов машинного обучения, естественно, не поддаются анализу. При расчете уровней достоверности специалисты по данным давно перестали рассматривать даже эту самую низкую планку как какое-либо требование.

Я занимаюсь аналитикой данных почти 30 лет, многие из которых занимали должности на уровне главных специалистов по данным, где я мог наблюдать за работой многих специалистов по данным в большом количестве организаций, а реальность нашей профессии еще мрачнее, чем то, что Результаты Иоаннидиса подсказывают. Большая часть компаний, в которых работают специалисты по обработке данных, вообще не считают науку о данных наукой. Это считается инженерной дисциплиной, а специалисты по обработке данных в этих компаниях считаются комбинацией разработчиков программного обеспечения, создателей информационных панелей и инженеров по конвейеру данных.

В других местах, где специалистам по данным фактически разрешено проводить периодические исследования данных, ситуация, как правило, не лучше. Работая изолированно и под постоянным давлением, чтобы заявить об успехе и перейти к следующему проекту, специалисты по данным, многие из которых оказались в этом затруднительном положении только после академических исследований, не следят за научным процессом. Большая часть этого даже не знает и не понимает.

Десять лет назад я начал проводить еженедельные «обзорные» сессии для специалистов по данным, которым они нужны, а три года назад, воочию убедившись в серьезности ситуации и цене, которую мы все платим, когда наука о данных отказывается от научного метода, я основал Otzma Analytics, и сделал эти обзоры своим основным занятием.

Эти обзорные сессии, или «аналитические аудиты», как я их иногда называю, наиболее близки к процессу экспертной оценки академических кругов, на который может надеяться работающий специалист по данным. И после десятилетия регулярного их выполнения я могу засвидетельствовать - без того, чтобы этот вывод был основан на небольшой выборке, - что почти все без исключения эти обзоры выявляют серьезные проблемы, требующие серьезного пересмотра анализа.

Это не ракетостроение. Обзор просто задает основные вопросы, которые все мы должны задавать в ходе всей нашей исследовательской деятельности. Если вы используете данные, ваш первый вопрос должен быть: «Что не так с этими данными?»; если вы придете к выводу, вы должны спросить: «Что не так с моими результатами?»

В качестве примера того, насколько ужасна ситуация, насколько редко мы, как сообщество, задаем эти вопросы: во время нынешнего кризиса Covid были разработаны и развернуты в больницах сотни инструментов искусственного интеллекта, которые должны были помочь в сортировке пациентов и ускорить диагностику. И все же исследование за исследованием показывают, что ни один из них не работает, и их использование может представлять опасность для пациентов. В каждом случае основная причина заключается в том, что никогда не задавались основные вопросы - ни о пригодности данных, ни о достоверности результатов.

Проблема очевидна даже среди кремниевых гигантов, на которых, похоже, все равняются, когда дело доходит до использования данных. Если бы другие исследователи в Google задали вопрос: Какие группы населения перепредставлены в моих данных? Какие из них недостаточно представлены? , Возможно, им не пришлось бы столкнуться с негативной реакцией, которая произошла в 2015 году, когда было обнаружено, что служба маркировки фотографий Google называет афроамериканцев гориллами . И их исправлением, которое прошло через три года, в конце 2018 года, не было бы просто убрать ярлык« горилла » из лексикона сервиса. Фактически, согласно недавнему исследованию NIST, если ваша система распознавания лиц не была разработана в Азии, частота ошибок при распознавании азиатских, черных и коренных американцев будет в 10-100 раз выше, чем соответствующие цифры для кавказцев.

Корень проблемы не в том, насколько умны, талантливы или осведомлены специалисты по данным. Коренная проблема в том, что все мы были заключены в «мышление успеха». Нас оценивают по тому, насколько быстро мы получаем информацию и насколько хорошо она соответствует тому, что хотят услышать спонсоры проекта.

Это не научный образ мышления. Как я демонстрирую в своей серии видео Как потерять деньги на аналитике, это образ мышления, который сбивает нас с пути, заставляя следовать модным словечкам и слепо бросаться к новым технологиям. Напротив, наука, цитируя Воспитание еретиков Линды МакИвер, заключается в том, чтобы сделать все, чтобы доказать, что ваша теория ошибочна.

Пришло время признать и решить этот кризис в науке о данных, и для меня первым шагом является восстановление самого основного из всех научных инструментов, единого, общего для всех академических кругов: экспертной оценки.

В моем предстоящем выступлении на ODSC APAC 2021 я расскажу историю некоторых реальных аналитических обзоров, которые я провел за эти годы, и приглашаю аудиторию самостоятельно выяснить, где проблемы пронизывают анализ. Я расскажу об успешных методах проведения таких обзоров и покажу силу этих аналитических аудитов, позволяющих выявить проблемный анализ и исправить неправильные выводы до того, как они станут дорогостоящими ошибками. Как я покажу, все это не волшебство. Это инструменты, которые может подобрать каждый - и каждый должен использовать - как для отслеживания своей работы, так и для помощи коллегам, проверяя их работу. Я с нетерпением жду встречи с вами на выступлении!

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai + Training.