Проблемы воспроизводимости в машинном обучении для здоровья

В прошлом году Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) одобрило в общей сложности 12 инструментов искусственного интеллекта, которые используют алгоритмы машинного обучения для здоровья (ML4H) для информирования пациентов о медицинской диагностике и лечении. Теперь инструменты разрешено продавать миллионам потенциальных пользователей только в США. Поскольку инструменты ML4H напрямую влияют на здоровье человека, их разработка, от экспериментов в лабораториях до развертывания в больницах, проходит под пристальным вниманием. Важным компонентом этого процесса является воспроизводимость.

Команда исследователей из Массачусетского технологического института, Университета Торонто, Нью-Йоркского университета и Evidation Health предложила ряд «рекомендаций поставщикам данных, академическим издателям и исследовательскому сообществу ML4H, чтобы продвигать вперед воспроизводимые исследования »в своей новой статье Воспроизводимость в машинном обучении для здоровья.

Кризис воспроизводимости машинного обучения

Подобно тому, как боксеры демонстрируют свою силу на ринге, снова вставая после того, как их опрокинули на холст, исследователи проверяют свои силы на научной арене, обеспечивая воспроизводимость своей работы. Если другие исследователи не смогут воспроизвести результаты исследования, исходное исследование привлечет сомневающихся и критиков. Хотя воспроизводимость является важной частью науки, многие подобласти, такие как машинное обучение, сейчас переживают кризис воспроизводимости.

Согласно опросу 1576 исследователей, проведенному уважаемым журналом Nature в 2016 году, более 70 процентов исследователей потерпели неудачу в своих попытках воспроизвести эксперименты других, а более половины не смогли воспроизвести даже свой собственный эксперимент. полученные результаты. В критической области медицины 41 процент респондентов сообщили, что предпринимают конкретные шаги, чтобы попытаться улучшить воспроизводимость своих исследований.

В апреле этого года организаторы одной из крупнейших в мире конференций по системам обработки информации по искусственному интеллекту (NeurIPS) обновили свою политику подачи статей, включив в нее обязательный контрольный список воспроизводимости для всех представленных материалов.

Но как улучшить воспроизводимость? Традиционно исследователи либо сами повторяли свои эксперименты, либо назначали кого-нибудь в своей лаборатории для проверки воспроизводимости. Другой подход заключался в улучшении документации и стандартизации методов экспериментов.

Исследователи из Массачусетского технологического института и др. Утверждают, что недостаточно просто воспроизвести результаты экспериментов, и предлагают изучить исследование машинного обучения с трех разных точек зрения: если другие исследователи могут воспроизвести точные технические результаты статьи в идентичных условиях, исследование достигнет Техническая воспроизводимость. Затем они вводят статистическую воспроизводимость и концептуальную воспроизводимость в критерии, чтобы определить, является ли исследование полностью воспроизводимым.

Уникальные задачи для ml4h

Ученые из различных дисциплин использовали подходы машинного обучения, чтобы ускорить анализ исследовательских данных. Исаак Кохан, заведующий кафедрой биомедицинской информатики Института Блаватника Гарвардской медицинской школы, объясняет: «Модель машинного обучения может быть обучена на десятках миллионов электронных медицинских карт с сотнями миллиардов точек данных без ошибок. ”

Однако ML4H сталкивается с уникальными проблемами в области технической воспроизводимости, статистической воспроизводимости и концептуальной воспроизводимости. Исследователи использовали как качественные аргументы, так и количественные обзоры литературы из более чем 300 статей из разных учреждений, посвященных ML4H, NLP, CV и общему машинному обучению. и пришел к выводу, что ML4H «отстает от других областей машинного обучения по различным показателям воспроизводимости».

Проблемы с технической воспроизводимостью

Данные о здоровье конфиденциальны. Фактически конфиденциальность данных о состоянии здоровья затрудняет для исследователей раскрытие данных без методов деидентификации, чтобы избежать возможного злонамеренного использования другими лицами. Обращение к немногим доступным общедоступным наборам данных тоже не поможет из-за риска переобучения конкретных наборов данных. Исследователи обнаружили, что только половина исследованных ими статей ML4H использовала общедоступные наборы данных по сравнению с более чем 90 процентами статей CV и NLP. И только около 13 процентов статей ML4H открыли исходный код своего кода по сравнению с 37 процентами статей CV и примерно половиной статей NLP.

Проблемы статистической воспроизводимости

Менее сложные типы данных. Исследователи количественно оценили частоту, с которой статьи демонстрируют расхождения в своих результатах. Например, выяснив, перечисляются ли в статьях как подходы, так и стандартное отклонение метрики производительности для нескольких случайных разделений, исследователи обнаружили, что 38% статей ML4H показали такую статистическую воспроизводимость. Однако исследователи отметили, что проблема остается, потому что наборы данных, используемые в статьях ML4H, имеют тенденцию быть относительно небольшими, крупноразмерными, с разреженными / нерегулярными выборками и страдают от высокого уровня шума.

Проблемы концептуальной воспроизводимости

Отсутствие наборов данных между учреждениями в сфере здравоохранения. Только 19 процентов статей ML4H использовали несколько наборов данных в своих исследованиях, по сравнению с 83 процентами статей резюме и 66 процентами статей по НЛП. Использование только одного набора данных может поставить под угрозу выводы исследования, тем более что целью исследования ML4H является внедрение метода в реальном мире, который требует, чтобы модели функционировали в различных медицинских практиках. Исследователи также объяснили низкий результат в 19% тем фактом, что разные медицинские учреждения имеют разные среды развертывания и методы сбора данных.

Исследователи предполагают, что размещение этих трех воспроизводимых возможностей в основе будущих исследований ML4H обеспечит более ясную картину для заинтересованных сторон; и что наборы данных нескольких институтов должны быть более доступными для исследований, поскольку все более широкое использование данных из нескольких источников улучшит концептуальную воспроизводимость. Они также призывают сообщество машинного обучения и исследователей сосредоточиться на «расширении нашей траектории статистической точности».

Статья Воспроизводимость в машинном обучении для здоровья доступна на arXiv.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Проблемы воспроизводимости в машинном обучении для здоровья

Кризис воспроизводимости машинного обучения

Уникальные задачи для ml4h

Вопросы по теме