Модели машинного обучения (ML) находят свое применение в реальных приложениях.

Все мы слышим новости о системах ОД для кредитного скоринга, здравоохранения, прогнозирования преступности. Мы можем легко предвидеть систему социальной оценки, основанную на машинном обучении. Благодаря быстрому темпам исследований машинного обучения и великолепным результатам, полученным в контролируемых экспериментах, все больше и больше людей, похоже, теперь открыты для возможности использования статистических моделей, управляющих важными частями нашей жизни.

Тем не менее, большинство таких систем воспринимается как черные ящики. Непонятные машины для вычисления чисел, дающие простой ответ Да / Нет; самое большее, за ответом следует неудовлетворительный «процент уверенности». Это часто является препятствием для полноценного принятия таких систем для принятия важных решений.

В сфере здравоохранения или кредитования специалист не исследует огромную базу данных, чтобы выявить сложные взаимосвязи. Специалист применяет предыдущее образование и знания предметной области, чтобы принять наилучшее решение для данной проблемы. Скорее всего, оценка основана на анализе данных, даже с использованием автоматизированного инструмента. Но, в конечном итоге, решение подкреплено правдоподобной и объяснимой аргументацией. Вот почему есть причины для отказа в ссуде и лечении. Более того, такие объяснения часто помогают отличить хорошего специалиста от плохого.

Большинство из нас склонны сопротивляться принятию решений, которые кажутся произвольными; очень важно понимать, насколько важные решения были приняты. Эта отличная статья описывает некоторые реальные цели интерпретируемых систем машинного обучения:

  • Доверие: уверенность в прогнозах системы.
  • Причинно-следственная связь: помогает сделать выводы о свойствах мира природы.
  • Обобщение: работа с нестационарной средой
  • Информативность: включите полезную информацию о процессе принятия решения.
  • Справедливое и Этичное Принятие решений: предотвращение дискриминационных результатов

Понятно, что общество заботится об интерпретируемом машинном обучении.

Я хочу пойти дальше: тем, кто создает системы машинного обучения, следует также заботиться об интерпретируемости. Специалисты и инженеры машинного обучения должны использовать интерпретируемость как средство для создания более совершенных моделей.

Цель этой статьи не в том, чтобы подробно рассказать об инструментах и ​​методах интерпретации, а также о том, как их применять. Скорее, я хотел бы предложить свое видение того, почему такие инструменты важны для практики машинного обучения, и остановиться на некоторых из моих любимых инструментов.

Системы машинного обучения (например, для классификации) разработаны и оптимизированы для выявления закономерностей в огромных объемах данных. Невероятно легко построить систему, способную находить очень сложные корреляции между входными переменными и целевой категорией. Структурированные данные? Бросьте ему XGBoost. Неструктурированные данные? На помощь приходит какая-то глубокая сеть!

Типичный рабочий процесс машинного обучения состоит из изучения данных, предварительной обработки функций, обучения модели, затем проверки модели и принятия решения о ее готовности к использованию в производственной среде. Если нет, вернитесь назад, часто разрабатывая лучшие функции для нашего классификатора. В большинстве случаев валидация модели основана на измерении предсказательной силы: например, площадь под кривой ROC часто бывает достаточно надежной.

Однако во время построения модели многие дизайнерские решения могут немного изменить модель. Не только выбор классификатора, но и бесчисленные решения на каждом этапе предварительной обработки. Оказывается, что для нетривиальной проблемы существует бесчисленное множество моделей с высокой предсказательной силой, каждая из которых рассказывает совершенно другую историю о данных. Некоторые истории могут просто ошибаться, даже если кажется, что они работают для определенного набора данных.

Это было великолепно названо эффектом Расёмон. Какие из этих моделей следует развернуть в производственной среде, чтобы принимать важные решения? Должны ли мы всегда брать модель с наивысшим абсолютным AUC? Как мы должны различать хорошие и плохие дизайнерские решения?

Подход и инструменты интерпретируемого машинного обучения помогают нам принять это решение и, в более широком смысле, сделать более точную проверку модели. Это больше, чем просто смотреть на AUC, но есть ответы на такие вопросы, как: как выходные данные модели меняются в зависимости от ценности каждой функции? Соответствуют ли отношения человеческой интуиции и / или знанию предметной области? Какие особенности имеют наибольший вес для конкретного наблюдения?

Мы можем грубо разделить интерпретируемость на глобальный и локальный анализ.

Методы глобального анализа дадут вам общее представление о связи между функцией и выходными данными модели. Например: как размер дома влияет на вероятность его продажи в ближайшие три месяца?

Разобраться в том или ином решении помогут местные методы анализа. Предположим, что существует высокая вероятность дефолта (невыплаты) по данной кредитной заявке. Обычно вы хотите знать, какие функции привели к тому, что модель классифицировала приложение как приложение с высоким уровнем риска.

Глобальные методы

Для глобального анализа начните с использования графиков частичной зависимости и индивидуальных условных ожиданий (ICE).

График частичной зависимости отображает вероятность для определенного класса при различных значениях признака. Это глобальный метод: он учитывает все экземпляры и делает заявление о глобальной связи функции с прогнозируемым результатом. [Источники: Интерпретируемое машинное обучение]

График частичной зависимости дает вам представление о том, как модель реагирует на конкретную функцию. Он может показать, является ли связь между целью и объектом линейной, монотонной или более сложной. Например, график может показать монотонно растущее влияние квадратных метров на цену дома (это хорошо). Или вы можете обнаружить странную ситуацию, когда потратить больше денег лучше для вашего кредитного скоринга - поверьте мне, это случается.

График частичной зависимости - это глобальный метод, поскольку он фокусируется не на конкретных примерах, а на общем среднем. Эквивалент PDP для отдельных наблюдений называется графиком индивидуального условного ожидания (ICE). Графики ICE рисуют по одной линии для каждого экземпляра, отображая, как прогноз экземпляра изменяется при изменении функции.

Будучи глобальным средним значением, PDP может не улавливать разнородные отношения, возникающие в результате взаимодействия между функциями. Часто бывает полезно оборудовать график частичной зависимости линиями ICE, чтобы получить больше информации.

Местные методы

Один из последних и наиболее многообещающих подходов к локальному анализу - Аддитивные объяснения Шапли. Его цель - ответить на вопрос Почему модель приняла это конкретное решение для экземпляра? SHAP присваивает каждой функции значение важности для конкретного прогноза.

Перед производством вы можете развернуть свою модель в тестовой среде и отправить данные, скажем, из набора контрольных тестов. Вычисление значений SHAP для наблюдения в этом наборе тестов может представлять интересное приближение того, как функции будут влиять на результаты модели в производственной среде. В этом случае я настоятельно рекомендую извлекать тестовый набор «вне времени», то есть более поздние наблюдения являются задерживающими данными.

Интерпретируемые решения из моделей машинного обучения уже являются важным требованием для их применения в реальном мире.

Во многих критических приложениях машинного обучения решение заключалось в рассмотрении только алгоритмов, интерпретируемых по своей сути, таких как линейные модели. Эти алгоритмы, неспособные фиксировать детализированные шаблоны, характерные для набора обучающих данных, будут фиксировать только общие тенденции. Тенденции, которые легко интерпретировать и сопоставить со знанием предметной области и интуицией.

Интерпретируемые инструменты предлагают нам альтернативу: используйте мощный алгоритм, позвольте ему захватить любой шаблон, а затем используйте свой человеческий опыт, чтобы удалить нежелательные. Среди множества возможных моделей выберите ту, которая правильно описывает данные.

Когда у вас есть интерпретируемые результаты из вашей обученной модели, вы можете использовать эту интерпретируемость. Результаты описанных выше инструментов могут составить краткий отчет, понятный деловому человеку. В конце концов, вам нужно объяснить своему начальнику, почему ваша модель так хорошо работает. Интерпретируемые модели, вероятно, помогут вашему начальнику и всем заинтересованным сторонам принять более правильные бизнес-решения.

Заключение

Иногда люди говорят, что только специалисты по машинному обучению в строго регулируемых приложениях должны беспокоиться об интерпретируемости. Я думаю, наоборот: каждый специалист по машинному обучению должен использовать интерпретируемость как дополнительный инструмент для построения лучших моделей.

Спасибо за прочтение. Буду признателен за ваш отзыв.