Журнал Американской медицинской ассоциации (JAMA) опубликовал точку зрения под названием Непредвиденные последствия машинного обучения в медицине [1]. Название привлекает внимание, и это интересное чтение, затрагивающее несколько важных моментов, вызывающих озабоченность тех, кто работает на перекрестке машинного обучения (ML) и систем поддержки принятия решений (DSS). Эта точка зрения своевременна, поскольку приходит в то время, когда другие также выражают озабоченность по поводу завышенных ожиданий от машинного обучения и его фундаментальных ограничений [2]. Тем не менее, некоторые моменты, выдвинутые в этой статье как тревожные, на мой взгляд, не подкреплены. В этом кратком обзоре я надеюсь убедить вас, что сообщения о непредвиденных последствиях, связанных именно с ML, сильно преувеличены.

TL;DR:

В: Были ли в прошлом непредвиденные последствия?
А.
Да, .
В: Все ли из-за ограничений, присущих машинному обучению?
А.
Нет .
В: Откуда возникают проблемы?
A.
Ошибки при разработке и проверке DSS .
В: Так о чем привлекает внимание заголовок?
A.
Излишняя тревога.
В: Но вызывает ли это какие-либо важные вопросы?
A.
Да, но им это не подходит.
В: Нужно ли мне читать оригинал?
А.
Да. Это очень важное обсуждение.

Комментарии

Эта точка зрения является своевременной и вызывает ряд вопросов, вызывающих озабоченность, начиная от неопределенности медицинских данных, трудностей с интеграцией контекстной информации и возможных негативных последствий. Хотя я согласен с точкой зрения, что это важные проблемы, которые необходимо решить, я не разделяю их значения (преднамеренного или нет) о том, что использование ML в медицине является их причиной. Некоторые из ключевых слов, используемых в точке зрения, такие как чрезмерное доверие, дескрипция и модели черного ящика, чрезмерно обобщают объем ограничений моделей машинного обучения, независимо от того, являются ли предназначались они или нет. Насколько я понимаю Точку зрения, поднятые опасения в основном связаны с управлением клиническим рабочим процессом и его ошибками, а не с частью машинного обучения как таковой, которая должна быть подчеркнута, является лишь одним из компонентов клинического DSS [3, см. Ниже].

Более того, точка зрения полностью игнорировала обсуждение эффективности и сильных сторон ML-DSS, чтобы рассмотреть их ограничения в перспективе. Знаете ли вы, что ежегодные затраты на человеческие и медицинские ошибки в здравоохранении составляют более 17 миллиардов долларов и более 250 000 американских смертей [12,13].

Я предлагаю вам прочитать исходную точку зрения [1] и мой ответ ниже, чтобы лучше понять суть дела. Я не согласен с некоторыми из точек зрения, в основном потому, что они либо преувеличены, либо недостаточно подкреплены, либо излишне возлагают вину на ML. Я цитирую несколько утверждений из Точки зрения ниже (сгруппированных по разделам в их части; я подчеркиваю) и предлагаю поэтапное опровержение в пунктах с отступом:

Дескиллинг

Viewpoint определяет декомпилирование как следующее : «снижение уровня навыков, необходимого для выполнения задачи, когда некоторые или все компоненты задачи частично автоматизированы, и что может вызвать серьезные нарушения производительности или неэффективности всякий раз, когда технология дает сбой или ломается »

  • Приводимая точка зрения аналогична общему снижению нашей способности умножать числа в уме или вручную, поскольку калькуляторы и компьютеры стали обычным явлением. Утверждение, что мы потеряем способность умножать числа, «чрезмерно полагаясь» на калькуляторы и компьютеры, вызывает излишнюю тревогу. Возможно, в наши дни умножение происходит медленнее, чем в эпоху до калькуляторов, или мы забыли несколько уловок ускорения, но я сомневаюсь, что мы полностью забудем, как умножать числа. Если взять в качестве примера автомобили или автотранспортные средства, то даже несмотря на то, что автоматизированный транспорт стал обычным явлением, мы никогда не теряли способность ходить или бегать.
  • Цитируемое в [5] исследование, подтверждающее эту точку зрения, было основано на интервью с 78 врачами первичной медико-санитарной помощи США. Опрос! Основан на взглядах и опыте врачей первичного звена, а не на объективных измерениях эффективности в крупномасштабном и официальном исследовании. Недавние опросы и опросы поставили нас на грань ядерной войны сейчас! И две вещи, которые они изучали в [5], - это использование электронных медицинских карт и электронных клинических руководств. Они даже не были основаны на ML.
  • В дополнительном исследовании делается вывод: «Врачи первичной медико-санитарной помощи воспринимают и испытывают дескиллинг как осязаемый результат использования определенных инноваций в области здравоохранения. Однако такая дескрипция отчасти является функцией собственных действий врачей, а также существующего давления в окружающем рабочем контексте ». Возможно, мне что-то не хватает, но это не означает, что ML или DSS вызывают дескиллинг.
  • Рискуя преувеличить это, этот аргумент дешифрования звучит для меня так, будто некоторые врачи обеспокоены тем, что «роботы» собираются занять их работу!

Другой пример, представленный в поддержку точки дескиллинга: «Например, в исследовании с участием 50 считывателей маммограмм диагностическая чувствительность снизилась на 14%, когда более разборчивым читателям были представлены сложные изображения, отмеченные компьютерным распознаванием»

  • Это выборочное изложение результатов цитируемого исследования [6]. В исследовании также отмечается: «Мы обнаружили положительную связь между компьютерными подсказками и повышенной чувствительностью менее разборчивых читателей для сравнительно простых случаев, в основном рака, обнаруживаемого на экране. Это ожидаемый эффект от правильных компьютерных подсказок. ». Это необходимо отметить, каким бы незначительным оно ни было.
  • Чтобы представить полную картину, в цитируемом исследовании в аннотации отмечается следующее: «Использование компьютерного обнаружения (CAD) было связано с увеличением чувствительности на 0,016 (95% доверительный интервал [ДИ], 0,003–0,028). для 44 наименее разборчивых радиологов для 45 относительно легких, в основном обнаруживаемых ИБС рака. Однако у 6 самых разборчивых радиологов с ИБС чувствительность снизилась на 0,145 (95% ДИ, 0,034–0,257) для 15 относительно сложных форм рака. »
  • Хотя, безусловно, важно понять причины снижения чувствительности с помощью CAD, важно помнить, что чувствительность читателя - это только один из множества факторов, которые необходимо учитывать при оценке эффективности ML-DSS [ 3]. Сами авторы рекомендуют это в конце: «Качество любого ML-DSS и последующие нормативные решения о его принятии не должны основываться только на показателях производительности, а должны быть предметом доказательства клинически значимых улучшений соответствующих результатов. по сравнению с обычным уходом, наряду с удовлетворением пациентов и врачей. ». Таким образом, тревога по поводу использования ML-DSS, ведущего к дескиллингу, в лучшем случае слабая, если только мы не увидим множество крупных исследований, добавляющих воспроизводимые доказательства в различных формах. рабочих процессов DSS.

Неопределенность в медицинских данных

Пытаясь показать, что на ML-DSS отрицательно влияют вариабельность наблюдателя, а также неотъемлемая неопределенность в медицинских данных, Точка зрения говорит : «Межобзорная вариабельность в идентификации и подсчете флуоресцентно окрашенных циркулирующих опухолевых клеток. было замечено, что это подрывает производительность ML-DSS, поддерживающую эту задачу классификации ».

  • Тем не менее, в цитируемом исследовании [7], подтверждающем это утверждение, четко отмечается: «Классификатор случайного леса оказался устойчивым к неопределенности в обучающих данных, в то время как производительность машины опорных векторов сильно зависит от степени неопределенности при обучении. данные ». Это не подтверждает приведенное выше утверждение и не означает, что все модели машинного обучения (и, следовательно, ML-DSS) серьезно подвержены неопределенности во входных данных.
  • Я согласен с авторами в отношении наличия предвзятости, неопределенности и изменчивости медицинских данных в различных формах и на разных этапах, и это важные факторы, которые следует учитывать. Однако с появлением носимых технологий и мониторинга пациентов, ведущих к ненавязчивому сбору большего количества более качественных данных о пациентах, я думаю, что будущее здравоохранения выглядит светлым [11].

Важность контекста

Пытаясь показать, как ML-DSS допускал некоторые ошибки в прошлом, не использовав некоторые явные правила, Точка зрения говорит: «Однако модели машинного обучения не применяют явных правил к данным, которые они предоставляются, но скорее выявляют тонкие закономерности в этих данных ».

  • Хотя большинство моделей машинного обучения изначально были разработаны для изучения существующих шаблонов в данных, они, безусловно, могут помочь в автоматическом изучении правил [14] . Более того, изучение шаблонов данных и применение явных правил не являются взаимоисключающими задачами в машинном обучении. Кроме того, можно закодировать явные правила, основанные на знаниях, в модели машинного обучения.
  • Если модели машинного обучения не были полностью обучены (не предоставляли достаточного количества выборки для известных условий и не обеспечивали достаточного разнообразия условий для отражения сценариев реального мира) или недостаточно проверены (включая известные и подтвержденные истины, например, астма не является защитный фактор для пневмонии, как было отмечено в другом примере), алгоритмы не виноваты в том, что они рекомендуют то, чему они обучались (пациенты с астмой имели более низкий риск пневмонии, как это наблюдалось в том конкретном наборе данных, на котором они обучались).

Позже точка зрения гласит: «эта контекстная информация не может быть включена в ML-DSS»

  • Это просто неправильно. Рискуя сделать широкое заявление, я могу сказать, что почти все типы информации могут быть включены в модель машинного обучения. Если вы можете записать это или произнести вслух, эта информация может быть представлена ​​в цифровом виде и включена в модель машинного обучения. Включает ли конкретный ML-DSS контекстную информацию и почему это другое обсуждение, а не включение контекстная информация в ML-DSS не является ошибкой моделей машинного обучения.

Заключительный раздел

Viewpoint заключает : «Использование ML-DSS может создать проблемы в современной медицине и привести к неправильному использованию».

  • Это забавный и такой ленивый аргумент. Это звучит так, как будто «использование автомобилей может создать проблемы в современном транспорте и привести к неправильному использованию». Люди использовали машины для плохих поступков? Конечно. Помешало ли это автомобилям произвести революцию в мобильности человека? Нет. Мы почти на пороге беспилотных автомобилей, благодаря машинному обучению и искусственному интеллекту, чтобы попытаться уменьшить человеческий стресс и количество аварий!

В чем же тогда слабые стороны ML-DSS?

Для получения общего обзора проблем при разработке клинического DSS обратитесь к [8,9]. Документ, цитируемый Viewpoint в поддержку точки зрения о непредвиденных последствиях, озаглавлен «Некоторые непредвиденные последствия использования информационных технологий в здравоохранении» [10], в котором отмечается, что «многие из этих ошибок являются результатом очень специфических сбоев. в разработке и / или внедрении информационных систем по уходу за пациентами (PCIS) ». И в этом-то и должна лежать вина. В дополнительном документе говорится: «Ошибки делятся на две основные категории: ошибки в процессе ввода и извлечения информации и ошибки в процессе коммуникации и координации, который, как предполагается, поддерживает PCIS. Авторы считают, что с более глубоким пониманием этих проблем специалисты по информатике могут обучать, разрабатывать системы, внедрять и проводить исследования таким образом, чтобы они могли избежать непредвиденных последствий этих скрытых ошибок ». Эти выявленные проблемы не имеют ничего общего с частью машинного обучения как таковой, а на самом деле связаны с вводом данных, доступом и связью! Следовательно, несправедливо обвинять во всем машинное обучение, как следует из нынешнего названия.

Как бы ты это сделал?

Основываясь на основной точке зрения, которую пытается сформулировать точка зрения (которая, на мой взгляд, является мусором в мусоре вне мусора), лучшим заголовком для этой части могло бы быть одно из следующих:

  • «Контекстная и клиническая информация должна быть частью проектирования, обучения и проверки системы поддержки принятия решений на основе машинного обучения».
  • «Недостаточная валидация систем поддержки принятия клинических решений может иметь непредвиденные последствия»
  • или если авторы действительно хотят выделить непреднамеренную часть, они могут пойти на «непредвиденные последствия из-за недостаточной проверки систем поддержки принятия решений»

Учитывая широкий характер обсуждаемых вопросов и широкий охват публикаций JAMA (более 50 000 просмотров за несколько дней с альтметрическим значением более 570), важно не преувеличивать опасения, выходящие за рамки того, что может быть подтверждено имеющимися доказательствами. Большой охват влечет за собой большую ответственность.

Опять же, вопросы, поднятые точкой зрения, важны, и мы должны их обсуждать, оценивать и решать. Мы, конечно, могли бы использовать больше проверок ML-DSS, но преувеличенные опасения и приписывание прошлых неудач именно ML не получили хорошей поддержки. Я понимаю ограничения автора при написании точки зрения JAMA (очень короткой: 1200 слов, несколько ссылок и т. Д.). Поэтому я рекомендую им опубликовать более длинный фрагмент (различные варианты доступны в Интернете) и создать лучший вариант. Я с нетерпением жду возможности прочитать это и узнать больше.

Что касается того, займут ли роботы работу врачей в ближайшем будущем? Вряд ли, с шансами ‹0,5%.

Конфликт интересов: нет.
Раскрытие финансовой информации: нет.
Опыт врача: нет
Опыт машинного обучения: Lot.

Этот пост изначально появился в моем блоге crossinvalidation.com. Я повторно публикую его здесь с небольшими изменениями, чтобы соответствовать среднему формату / синтаксису.

Отказ от ответственности

Мнения, высказанные здесь, являются моими собственными. Они не отражают мнения или политику моих нынешних, бывших или будущих работодателей или друзей! Более того, эти комментарии предназначены для продолжения обсуждения важных вопросов и не предназначены для личного характера или посягательства на доверие к какому-либо лицу или организации.

использованная литература

  1. Cabitza F, Rasoini R, Gensini GF. Непредвиденные последствия машинного обучения в медицине. JAMA. 2017; 318 (6): 517–518. DOI: 10.1001 / jama.2017.7797
  2. Чен, Дж. Х., & Аш, С. М. (2017). Машинное обучение и прогнозирование в медицине - за гранью завышенных ожиданий. Медицинский журнал Новой Англии, 376 (26), 2507.
  3. Мартин Пусич, доктор медицины, доктор Дж. Марк Ансермино, FFA, MMed, MSc, FRCPC. Системы поддержки принятия клинических решений. BCMJ, Vol. 46, №5, июнь 2004 г., стр. 236–239.
  4. Кавшек Б. и Лаврач Н. (2006). APRIORI-SD: адаптация обучения правил ассоциации к обнаружению подгрупп. Прикладной искусственный интеллект, 20 (7), 543–583.
  5. Повякало А.А., Альберди Э., Стригини Л., Эйтон П. Как отличить компьютерные решения от компьютерных. Принятие решений в медицине. 2013. 33 (1): 98–107.
  6. Свенссон CM, Hübler R, Figge MT. Автоматическая классификация циркулирующих опухолевых клеток и влияние вариабельности между исследователями на обучение и производительность классификатора. J Immunol Res. 2015; 2015: 573165.
  7. Хофф Т. Дескиллинг и адаптация врачей первичной медико-санитарной помощи с использованием двух рабочих инноваций. Health Care Manage Rev. 2011. 36 (4): 338–348.
  8. Ситтиг, Д. Ф., Райт, А., Ошерофф, Дж. А., Миддлтон, Б., Тейч, Дж. М., Эш, Дж. С.,… и Бейтс, Д. В. (2008). Грандиозные проблемы в поддержке принятия клинических решений. Журнал биомедицинской информатики, 41 (2), 387–392.
  9. Брайт, Т. Дж., Вонг, А., Дурджати, Р., Бристоу, Э., Бастиан, Л., Който, Р. Р.,… и Винг, Л. (2012). Влияние клинических систем поддержки принятия решений - систематический обзор. Анналы внутренней медицины, 157 (1), 29–43.
  10. Эш, Дж. С., Берг, М., и Койера, Э. (2004). Некоторые непредвиденные последствия использования информационных технологий в здравоохранении: природа ошибок, связанных с информационной системой ухода за пациентами. Журнал Американской ассоциации медицинской информатики, 11 (2), 104–112.
  11. Хиремат, С., Янг, Г., и Манкодия, К. (2014, ноябрь). Носимый Интернет вещей: концепция, архитектурные компоненты и перспективы для ориентированного на человека здравоохранения. В статье Беспроводная мобильная связь и здравоохранение (Mobihealth), 4-я Международная конференция EAI, 2014 г. (стр. 304–307). IEEE.
  12. Дональдсон, М.С., Корриган, Дж. М., и Кон, Л. Т. (ред.). (2000). Человеку свойственно ошибаться: создание более безопасной системы здравоохранения (том 6). Национальная академия прессы.
  13. Андел, К., Давидов, С. Л., Холландер, М., и Морено, Д. А. (2012). Экономика качества здравоохранения и врачебные ошибки. Журнал финансов здравоохранения, 39 (1), 39.