Алгоритмы машинного обучения: сюрпризы при развертывании?

Алгоритмы машинного обучения (ML) используются для создания прогнозов во всех сферах нашей жизни, связанной с принятием решений. Методы варьируются от «простых» алгоритмов, таких как деревья, леса, наивный байесовский алгоритм, модели линейной и логистической регрессии и методы ближайшего соседа, за счет улучшений, таких как ускорение, упаковка, регуляризация и ансамбль, до ресурсоемких алгоритмов глубокого обучения черного ящика. .

Новая мода «применять глубокое обучение ко всему» привела как к прорывам, так и к тревожным катастрофам. Это связано с нестабильностью алгоритмов глубокого обучения? Я утверждаю, что это происходит из-за растущего разрыва между разработчиками алгоритмов прогнозирования, их контекстом развертывания и действиями их конечных пользователей.

Машинное обучение основано на корреляциях, а не на причинно-следственных связях. В этом сила ML, а также его слабость. Это означает, что мы можем получить хорошие результаты, если обучим и оценим решение машинного обучения в правильном контексте его развертывания. Но если мы отклонимся от контекста - разные данные обучения / развертывания, непонимание действий конечного пользователя, грамотность, мотивация и доверие машинного обучения и т. Д. - нас ждут сюрпризы. Как и в стихотворении Гете Ученик чародея (показанном в мультфильме Фантазия Диснея), ученик фокусника учится только имитировать действия фокусника, но не понимает их, что приводит к катастрофе.

Вопрос, который мы должны задать при разработке решения машинного обучения: «как будет использоваться решение машинного обучения для генерации действия. Это требует понимания того, как конечный пользователь будет использовать система и прогнозируемые значения / баллы. Например,

  • будут ли они применять решение к новому типу данных?
  • поймут ли они полученный результат и / или поверит ему?
  • могут ли они перевести заявленный уровень производительности алгоритма в практическое применение? (например, затраты на завышение или занижение прогноза)
  • как пользователь переведет прогнозируемую оценку в действие?

Чтобы ответить на эти важные вопросы, требуется диалог между разработчиком алгоритма (специалистом по данным) и конечным пользователем, а часто и сборщиком данных. Это сложный диалог, где разные стороны говорят на разных языках, и может быть много недопониманий. Это означает, что специалисты по обработке данных должны погрузиться в контекст развертывания не только с точки зрения данных, но также с точки зрения людей и лиц, принимающих решения.

В недавней статье ArXiv большой группы исследователей Google (+ два профессора EE / CS и аспирант) под названием Недостаточная спецификация представляет проблемы для надежности в современном машинном обучении они сообщают об обнаружении новой основной причины неожиданного развертывания: Недостаточная спецификация, то есть алгоритмы, которые кажутся одинаково хорошими во время разработки (т. Е. Все они дают одинаковое решение и, следовательно, проблема недооценена), во время развертывания работают совершенно по-разному с точки зрения выступления по подгруппам.

Является ли открытие, сделанное в упомянутой выше статье, новым пониманием? Сюрпризы развертывания - это особенность глубокого обучения? «занижение спецификации» - это проблема глубокого обучения? Действительно ли неполная спецификация является проблемой для прогнозирования?

Хорошо известно, что алгоритмы прогнозирования могут кардинально отличаться от подгрупп данных. Парадокс Симпсона - крайний пример, когда корреляция между входом и выходом меняет направление при изучении подгрупп данных. Чем больше число предикторов, тем больше вероятность парадокса Симпсона. Прогностические модели также легко обмануть, когда набор обучающих данных включает группу меньшинства, которая имеет другие отношения ввода-вывода, чем остальные обучающие данные. Модели вводят в заблуждение, потому что метрики, используемые для обучения и оценки алгоритмов, придают равный вес каждому наблюдению (например, метод наименьших квадратов или максимальная вероятность для обучения; RMSE и метрики точности для оценки).

Хотя аннотация к статье исследователей Google заканчивается расплывчатым предложением, которое может ввести читателей в заблуждение, они могут подумать, что существует технологическое решение («Наши результаты показывают необходимость явного учета недостаточной спецификации при моделировании конвейеров, которые предназначены для реального развертывания в любой области »), в нескольких местах 59-страничной статьи авторы делают вывод:

«Это подтверждает необходимость адаптации и тестирования моделей для клинических условий и населения, в котором они будут применяться».

or

«Это согласуется с предыдущими выводами о том, что ввод медицинских / предметных реляционных знаний привел к улучшению поведения вне предметной области…, производительности… и интерпретируемости… моделей машинного обучения».

Документ завершается предложением обойти необходимость в зависящем от контекста диалоге между специалистом по обработке данных и конечным пользователем путем построения моделей, которые отдают предпочтение предикторам, которые приблизительно соответствуют причинно-следственной структуре. Хотя использование причинно-следственной структуры возможно и полезно в некоторых областях, особенно в задачах низкой размерности, области, в которых проявляется ML, - это именно те области, в которых причинно-следственные связи трудно определить. Объяснение и прогнозирование имеют свои достоинства, и решения для прогнозирования могут быть надежными и полезными даже без лежащего в основе причинно-следственного моделирования, если разработчики и пользователи взаимодействуют и общаются на протяжении всего цикла проектирования, тестирования, развертывания и обратной связи после развертывания.

По своей сути, сюрпризы развертывания - это непонимание ограничений машинного обучения или даже статистических моделей. Все они зависят от множества человеческих предпочтений - от специалистов по обработке данных, сборщиков данных, инженеров по обработке данных, от людей, от которых собираются данные, от конечных пользователей (например, лиц, принимающих решения) и т. Д.

В процессе принятия судебных решений растет количество исследований, выявляющих проблемы, связанные с катастрофами при развертывании, которые были инициированы отчетом ProPublica за 2016 год о вопиющих ошибках системы КОМПАС, используемой в нескольких контекстах принятия судебных решений. Многие проблемы связаны с расхождениями между данными, используемыми для обучения алгоритма, и данными во время развертывания, но есть много других проблем, связанных с контекстом, которые возникают, когда мы спрашиваем, как будет использоваться решение машинного обучения. для создания действия? Затем мы можем спросить, какие данные лицо, принимающее судебное решение, будет использовать в качестве входных данных для системы, и сравнить их с входными данными, используемыми для обучения данных (разные группы населения, разные определения рецидивизма и т. Д.). Мы можем сравнить действие, которое будет инициировано (например, решение об условно-досрочном освобождении), с действием, используемым для определения выходных данных в обучающих данных. Это примеры критического знания, которое может раскрыть диалог.

В нашей недавней статье Скрытые несоответствия, вносимые прогнозирующими алгоритмами при принятии судебных решений мы раскрываем четыре несоответствия, которые могут быть скрыты от их конечных пользователей: судей, офицеров по условно-досрочному освобождению, юристов и других лиц, принимающих решения. Эти несоответствия связаны с различными человеческими элементами (специалистами по обработке данных, инженерами данных, субъектами данных, сборщиками данных, лицами, принимающими судебные решения). Несоответствия включают выбор измеряемого результата и предикторов, выбор и качество обучающих данных, точность прогнозов подгрупп (и проблему эталонного класса) и сообщаемые оценки риска. Ни одна из этих проблем не может быть решена путем удаления человека из цикла; Невозможно определить причинную структуру, лежащую в основе сложного и динамичного процесса; Помимо причинной структуры, существуют серьезные проблемы измерения.

Итог: внедрение алгоритмических решений прогнозирующего машинного обучения в приложения для принятия решений человеком может быть полезным и стабильным, но для этого требуется тесный и постоянный диалог, сотрудничество и понимание между специалистами по обработке данных, конечными пользователями и другими вовлечены люди.

Примечание. В этой статье не рассматривается этический вопрос о том, следует ли использовать алгоритмы машинного обучения при принятии решений. Скорее он фокусируется на «сюрпризах», которые могут возникнуть при развертывании.