Объясняемый мониторинг: прекратите летать вслепую и следите за своим ИИ

Необходимость мониторинга AI / ML

Мы живем в беспрецедентные времена, когда всего за несколько недель все кардинально изменилось для многих людей и предприятий по всему миру. COVID-19 распространил свои крылья по всему миру и унес человеческие жизни, мы наблюдаем рекордные скачки безработицы и банкротства малого бизнеса.

Сегодня ИИ все чаще применяется компаниями в различных отраслях, но ИИ - не самая простая технология для внедрения. Большинство производственных систем искусственного интеллекта представляют собой патентованные технологии с открытым исходным кодом и облачные технологии, органически накопленные с течением времени. Однако в последние несколько лет появились инструменты искусственного интеллекта на основе графического интерфейса пользователя, такие как DataRobot, Dataiku и т. Д., Которые помогают предприятиям, менее склонным создавать собственные модели, успешно обучать и развертывать модели искусственного интеллекта.

С появлением этих инструментов компании пришли к пониманию, что обучение и развертывание ИИ - это только первый шаг: они должны затем отслеживать свои развернутые модели и управлять ими, чтобы обеспечить безрисковые и надежные бизнес-результаты. С появлением более эффективных моделей «черного ящика» необходимость управления этими моделями стала как более необходимой, так и более сложной. Все чаще компании узнают, что:

«Обучение и развертывание моделей машинного обучения - это относительно быстро и дешево, но поддерживать, отслеживать и управлять ими с течением времени сложно и дорого».

Действительно, поскольку их производительность со временем может ухудшиться из-за изменений во входных данных после развертывания, модели требуют постоянного мониторинга, чтобы гарантировать их точность во время производства. И хотя многие существующие технологии мониторинга обеспечивают видимость проблем в режиме реального времени, их часто недостаточно для определения первопричины проблем в сложных системах искусственного интеллекта.

Отсутствие обратной связи

Большинство организаций могут обнаружить проблемы с производственными системами машинного обучения только после того, как станет слишком поздно и ущерб будет нанесен. В некоторых случаях производственные проблемы могут оставаться незамеченными до тех пор, пока окончательные бизнес-показатели, основанные на системе машинного обучения, не упадут.

Вместо того, чтобы полагаться на бизнес-метрики нижнего уровня в качестве индикатора проблем с производительностью восходящей модели, предприятия могут опередить потенциальные проблемы, отслеживая опережающие индикаторы, включая прогнозирование и дрейф функций, а также ошибки входных данных. Отслеживание этих опережающих индикаторов и возможность идентифицировать неожиданные сдвиги позволяет команде ML Ops проводить расследования в режиме реального времени, а не постфактум. Но простое отслеживание правильных показателей решает только половину проблемы. После обнаружения сдвига следует как можно быстрее провести расследование или анализ первопричин. Чтобы обеспечить быстрый и точный анализ первопричин, можно использовать объяснимость ИИ, чтобы помочь определить основные причины проблемы и способ действий (например, переобучить модель на новых данных, исправить конвейер данных) следует принимать.

В совокупности отслеживание основных индикаторов проблем с производительностью модели и использование объяснимости искусственного интеллекта, чтобы помочь практикам понять «почему» проблемы, составляют новую парадигму под названием Explainable ML Monitoring.

Пробелы в традиционных решениях для мониторинга

Сегодня существует два основных подхода к мониторингу производственного программного обеспечения:

DevOps использует мониторинг сервисов или инфраструктуры для обеспечения широкой операционной прозрачности и работоспособности сервисов.
Мониторинг бизнес-показателей с помощью телеметрии, используемый владельцами бизнеса для отслеживания состояния бизнеса.

К сожалению, эти методы не подходят для систем машинного обучения, производительность которых, в отличие от традиционных программных систем, не является детерминированной и зависит от различных факторов, таких как сезонность, новые тенденции в поведении пользователей и часто чрезвычайно высокомерные системы обработки данных. Например, с наступлением нового праздничного сезона может потребоваться обновление идеально работающей рекламной модели. Точно так же модель, обученная показывать рекомендации по содержанию в США, может не очень хорошо подойти пользователям, регистрирующимся на международном уровне.

Проблемы, присущие только мониторингу машинного обучения

1. Распад модели. В отличие от другого программного обеспечения, производительность модели машинного обучения со временем может ухудшиться. Мониторинг правильных результатов модели, если он доступен, обеспечивает немедленные уведомления об изменениях, влияющих на бизнес. Возможность отслеживать распад модели поможет нам узнать, пришло ли время обновить модель.

2. Дрейф данных. Хотя модели машинного обучения обучаются с использованием конкретных данных (например, возраст 20–60 лет), они могут сталкиваться с разными данными в процессе производства (например, возраст 60–80 лет) и, следовательно, делать неоптимальные прогнозы.

3. Целостность данных. Бизнес-данные динамичны, и их состав постоянно меняется. Это может отрицательно сказаться на производительности моделей машинного обучения, особенно с автоматизированными конвейерами данных. Несогласованность данных часто может оставаться незамеченной в развернутых системах искусственного интеллекта.

4. Выбросы. Развернутые модели машинного обучения могут работать с данными, которые находятся далеко за пределами обучающего распределения. Эти выбросы могут вызвать отдельные проблемы с производительностью, которые сложно отлаживать в глобальном масштабе. Их точное определение в режиме реального времени может дать представление о решении проблем сразу же. Обнаружение выбросов - сложная задача, поскольку существует множество методов, которые можно применить, и она хорошо изучена на протяжении многих лет. Это становится более сложной задачей в контексте производительности модели машинного обучения, потому что нам нужно изучать выбросы как проблему многомерного анализа по большому количеству переменных, а также видеть их влияние на поведение модели, то есть определять, приводит ли они к хаотическому поведению модели.

5. Смещение. Даже после мониторинга изменений данных его истинное влияние на защищенные группы может измениться, несмотря на проверку модели, то есть модель машинного обучения может стать смещенной после развертывания. Первая защита может заключаться в отказе от защищенных атрибутов (например, расы, пола и т. Д.) Во время процесса обучения, но модели также могут демонстрировать смещения из-за других функций, которые сильно коррелируют с защищенными атрибутами. Что нам нужно, так это постоянное отслеживание моделей справедливости, где эти показатели вычисляются на лету и в режиме реального времени. Определения предвзятости (равенство возможностей, равенство результатов и т. Д.) Могут меняться от организации к организации, а также от проблемы к проблеме, поскольку единого определения справедливости не существует. Следовательно, мы должны иметь возможность поддерживать подключаемую политику и постоянно обеспечивать ее соблюдение, чтобы обнаруживать любые потенциальные проблемы с предвзятостью. При обнаружении смещения важно детально изучить причины, чтобы определить, нужно ли заменить модель или существует проблема с конвейером данных.

Что такое объяснимый мониторинг?

Надежная система мониторинга ИИ требует интеграции с модельной обслуживающей инфраструктурой, чтобы защититься от вышеупомянутых 5 операционных проблем. Это позволяет пользователям легко просматривать контролируемые выходные данные в реальном времени для выявления ключевых показателей эффективности и других проблем или реагировать на предупреждения. Исследование отмеченных операционных проблем машинного обучения часто требует больших усилий. Черный ящик моделей машинного обучения делает их особенно трудными для понимания и отладки для разработчиков машинного обучения.

Система Explainable ML Monitoring расширяет возможности традиционного мониторинга, чтобы обеспечить глубокое понимание модели с действенными шагами. С помощью мониторинга пользователи могут понять драйверы проблем, первопричины проблем и проанализировать модель, чтобы предотвратить повторение. Это помогает значительно сэкономить время.

Мы считаем, что такая система должна обладать 3 ключевыми свойствами:

Всеобъемлющий. Объяснимая система мониторинга машинного обучения должна охватывать все основные опережающие индикаторы производительности модели и сами метрики производительности. В дополнение к статистической полноте, идеальная и объяснимая система мониторинга машинного обучения предоставляет интуитивно понятные пользовательские интерфейсы как для технических (разработчики моделей, ML Ops), так и для нетехнических (аналитики, владельцы бизнеса) заинтересованных сторон.

Подключаемый. Команды должны иметь возможность интегрировать систему мониторинга с существующей инфраструктурой данных и ИИ, а также с наиболее распространенными фреймворками машинного обучения с открытым исходным кодом (Scikit-Learn, PyTorch, Tensorflow, Spark и т. Д.), Чтобы быстро увидеть действенные результаты.

Действие. Пользователи должны иметь возможность получать практическую информацию о производственных проблемах. Живые объяснения с более глубокой аналитикой необходимы для быстрого раскрытия «почему» и «как» поведения модели. Получение большого количества предупреждений создает шум, поэтому крайне важно, чтобы система позволяла пользователям настраивать необходимые элементы управления для настройки предупреждений только для смен, требующих действий.

Заключение

Финансовые ставки, связанные с ИИ, огромны. Доверие является частью этих ставок, и его легче потерять, чем приобрести . Мы увидели, что события черного лебедя, такие как COVID-19, могут сделать с бизнесом. Если ваши продукты искусственного интеллекта не отслеживаются, вы можете принимать неверные решения для своих клиентов. Поэтому видимость будет чрезвычайно важна!

Вы уверены в эффективности своего ИИ? Есть ли у вас необходимое понимание этого? Если нет, запланируйте демонстрацию сегодня и посмотрите, сможет ли Fiddler помочь. Отправьте нам письмо по адресу [email protected], чтобы установить демо!

Первоначально опубликовано на https://blog.fiddler.ai 13 апреля 2020 г.