AutoML: не пуля, а мощный бизнес-инструмент

Аллен Чен, Эндрю Мендоза, Гаэль Вароко, Стивен Миллс и Владимир Лукич

Когда ИИ был впервые внедрен в бизнес-процессы, он произвел трансформацию, позволив компаниям использовать огромные объемы накопленных данных для улучшения планирования и принятия решений. Однако вскоре стало очевидно, что масштабная интеграция ИИ в бизнес-процессы требует значительных ресурсов. Во-первых, компаниям пришлось нанять высокопоставленных (и высокооплачиваемых) специалистов по данным для создания моделей данных, лежащих в основе ИИ. Во-вторых, процесс создания и обучения моделей машинного обучения, которые ускоряли процесс анализа данных, требовал значительных затрат времени и энергии. Это, в свою очередь, привело к развитию автоматизированного машинного обучения (AutoML), методов, которые по существу автоматизируют основные аспекты процесса машинного обучения, включая выбор модели, обучение и оценку.

Фактически, AutoML стремится обменивать машинное (обрабатывающее) время на человеческое. Эта автоматизация дает много преимуществ. В первую очередь, это снижает трудозатраты. Это также снижает количество человеческих ошибок, автоматизирует повторяющиеся задачи и позволяет разрабатывать более эффективные модели. Уменьшая технические знания, необходимые для создания модели машинного обучения, AutoML также снижает барьеры для входа, позволяя бизнес-аналитикам использовать передовые методы моделирования - без помощи специалистов по данным. А освобождая специалистов по обработке данных от повторяющихся задач процесса машинного обучения, AutoML высвобождает эти дорогостоящие ресурсы для реализации более ценных проектов.

Новые решения неизменно вызывают новые вопросы

Как специалисты по обработке данных, мы изначально мало думали об AutoML. Да, эти методы и инструменты могут создавать достаточно эффективные модели. Но это, по сути, все, что они могли сделать - и, конечно, не без недостатков. На ранних этапах инструменты AutoML были гораздо менее продвинутыми и, как правило, не более сложными, чем те, которые могли бы быть реализованы специалистом по анализу данных с использованием существующих инструментов. Эти препятствия на пути к принятию усугублялись природой «черного ящика» AutoML, которая делает обученные модели менее интерпретируемыми и значимыми, а также тем, что ему трудно сразу найти применение в неакадемических условиях. Более того, наборы инструментов AutoML были гораздо более узкими по своему охвату и решали лишь часть проблемы - и с небольшой добавленной стоимостью.

С тех пор AutoML прошел долгий путь. Фактически, теперь он повсеместно присутствует в большинстве распространенных библиотек машинного обучения, инструментов с открытым исходным кодом и основных платформ облачных вычислений. Имеющиеся в продаже инструменты AutoML упрощают проектирование функций и разработку сложных моделей машинного обучения всего несколькими нажатиями кнопки, позволяя бизнес-пользователям самостоятельно развертывать эти модели в состоянии готовности к производству. По мере распространения этих более мощных инструментов AutoML возникают новые вопросы, такие как:

· Следует ли нам использовать AutoML?

· Если да, то когда мы должны или не должны их использовать?

· Можно ли ожидать, что результаты будут лучше, чем модели ручной работы?

· Могут ли эти инструменты сделать следующий шаг и полностью заменить специалистов по обработке данных?

Слепая оптимизация показателя ведет к усилению предвзятости

Оценивая AutoML, мы должны осознавать, что производительность - это еще не все, и что предвзятость может играть важную роль в искусственном интеллекте. Исключение специалистов по человеческим данным не обязательно приводит к беспристрастным результатам. Компьютер, например, не знает, что есть что-то неправильное в обучении алгоритмов распознавания лиц, использующих только лица белых людей, или что в результате этого не происходит разблокировка телефона, когда ему показывают лицо человека. небелого пользователя. Поэтому сами специалисты по данным несут ответственность за смягчение этих предубеждений путем проверки и исправления моделей, которые дают преимущество одной расе, полу или защищенному классу над другим.

Допущение искажения результатов может иметь негативные последствия для бизнеса практически в любой отрасли. Пример предвзятости в сфере здравоохранения недавно был опубликован в Science magazine. Рассматриваемый алгоритм был разработан, чтобы увидеть, какие пациенты получат пользу от программ управления уходом с высоким риском. Согласно отчету, именно такой алгоритм обычно используется для определения уровня помощи для более чем 200 миллионов человек в США. Авторы статьи обнаружили, что алгоритм неверно определил, что меньше чернокожих людей, чем белых, нуждаются в таких программах помощи. - несмотря на то, что у чернокожих пациентов в наборе данных было на 26,3% больше хронических заболеваний, чем у их белых коллег. Ошибка произошла по двум причинам: во-первых, алгоритм использовал общие индивидуальные затраты на здравоохранение за предыдущий год для определения потребности. Поскольку чернокожие граждане, как правило, беднее белых, они меньше тратят на здравоохранение, независимо от того, в каком объеме они могли бы действительно нуждаться. Во-вторых, набор данных, использованный для обучения алгоритма, включал в семь раз больше данных о белых, чем о черных.

Аналогичным образом, Reuters отметило в 2018 году, что алгоритм, который Amazon использовала в течение многих лет для управления процессом найма, несправедливо исключает кандидатов-женщин. Действительно, алгоритм найма был обучен путем анализа шаблонов резюме, отправленных в Amazon за предыдущие десять лет. Поскольку подавляющее большинство кандидатов были мужчинами, алгоритм обнаружил, что кандидаты-мужчины будут отобраны с большей вероятностью. Алгоритм также давал более низкие оценки резюме, которое включало слово« женский , как в капитан женского шахматного клуба , и понижало рейтинг выпускников двух женских колледжей.

Это всего лишь два примера возможных способов, которыми предвзятость может внедряться в процесс принятия бизнес-решений. Учитывая, насколько широко процессы на основе ИИ используются для принятия таких решений, некоторые из которых затрагивают сотни миллионов людей, компании должны знать о предубеждениях и принимать все возможные меры для их устранения или смягчения.

Лучшая модель для науки о данных: люди + ИИ

Тем не менее, несмотря на риск, связанный с необнаруженными предубеждениями, мы считаем, что простота и потенциальная экономия времени при разработке моделей с использованием AutoML делает его инструментом, который должен быть под рукой у каждого специалиста по данным и отдела науки о данных. Это недорогой инструмент с высоким потенциалом, который, как минимум, обеспечивает такую ​​же прочную основу производительности для ручных подходов. В лучших сценариях AutoML будет делать это намного быстрее, чем человек, а также создавать более совершенные модели, как мы обсудим во второй части этой серии. Специалисты по обработке данных должны быть особенно осторожны, чтобы как допущения, которые они используют при разработке своих моделей, так и данные, которые они используют для их обучения, не привели к непредвиденным последствиям.

Последней возможной причиной недостаточного распространения AutoML может быть тот факт, что некоторые специалисты по данным выразили обеспокоенность тем, что AutoML вскоре сделает их избыточными. Это похоже на беспокойство бухгалтеров в начале 1980-х, когда Microsoft представила Excel. Вместо того, чтобы лишать бухгалтеров работы, как они боялись, Excel облегчил их работу, автоматизируя многие рутинные задачи, связанные с управлением финансовыми документами.

Точно так же мы считаем, что AutoML сделает специалистов по обработке данных более эффективными. Вместо того, чтобы тратить время на повторение и настройку моделей, специалисты по обработке данных, имеющие доступ к инструментам AutoML, могут тратить меньше времени на эти задачи и больше на более важные усилия, такие как применение знаний предметной области и отрасли. Учитывая нехватку специалистов по обработке данных и их дороговизну, такая возможность перемещать ресурсы должна быть долгожданным достижением для руководителей бизнеса.

Специалисты по обработке данных могут быть уверены, зная, что они не только могут продолжать играть центральную роль в разработке ИИ, но и должны продолжать играть такую ​​роль. Если компании хотят избежать непредвиденных последствий предвзятости в автоматизации, люди должны оставаться в центре моделирования данных.

Во второй части этой серии из двух частей мы рассмотрим сильные и слабые стороны AutoML и подчеркнем важную роль, которую люди играют в проектах ИИ.