Машинное обучение, Мнение

10 основных причин, почему 87% проектов машинного обучения терпят неудачу?

Урок о шокирующих причинах катастрофы с внедрением искусственного интеллекта.

Мы везде видим новости о машинном обучении. Действительно, у машинного обучения есть большой потенциал. Согласно прогнозам Gartner, До 2020 года 80% проектов ИИ останутся алхимией, управляемой волшебниками, чьи таланты не будут масштабироваться в организации, а Transform 2019 of VentureBeat предсказал, что 87% проектов AI никогда не попадут в производство.

Почему это так? Почему так много проектов терпят неудачу?

Недостаточно опыта

Одна из причин заключается в том, что технология все еще нова для широкой аудитории. Кроме того, большинство организаций все еще не знакомы с программными инструментами и необходимым оборудованием.

Похоже, что сегодня любой, кто работал в области анализа данных или разработки программного обеспечения и выполнил несколько типовых проектов в области науки о данных, после прохождения короткого онлайн-курса называет себя специалистом по обработке данных.

Дело в том, что для работы с большинством проектов машинного обучения и искусственного интеллекта необходимы опытные специалисты по данным, особенно когда речь идет об определении критериев успеха, окончательном развертывании и постоянном мониторинге модели.

Разрыв между наукой о данных и традиционной разработкой программного обеспечения

Еще одним важным фактором является разрыв между наукой о данных и традиционной разработкой программного обеспечения. Традиционная разработка программного обеспечения имеет тенденцию быть более предсказуемой и измеримой.

Однако наука о данных по-прежнему является отчасти исследованием и отчасти инженерией.

Исследования в области науки о данных продвигаются вперед с множеством итераций и экспериментов. Иногда весь проект должен вернуться с этапа развертывания к этапу планирования, поскольку выбранная метрика не влияет на поведение пользователя.

От проекта по науке о данных нельзя ожидать реализации традиционных проектов на основе Agile. Это вызовет крупномасштабную путаницу для руководителя, который работал с четкими поставками в конце каждого цикла задач для обычных проектов разработки программного обеспечения.

Объем и качество данных

Всем известно, что чем больше набор данных, тем точнее прогноз от системы ИИ. Помимо прямых последствий увеличения объемов данных, по мере увеличения размера данных возникает множество новых проблем.

Во многих таких случаях вам придется объединить данные из нескольких источников. Как только вы начнете это делать, вы поймете, что они не синхронизируются много раз. Это приведет к большой путанице. Иногда вы заканчиваете объединением данных, которые не должны были объединяться, что приводит к тому, что точки данных имеют одно и то же имя, но разные значения.

Плохие данные в лучшем случае приведут к бесполезным или информативным результатам. Плохие данные также могут привести к неверным результатам.

Маркировка данных

Отсутствие помеченных данных - еще одна проблема, которая тормозит многие проекты машинного обучения. Согласно The MIT Sloan Management Review,

76% людей борются с этой проблемой, пытаясь самостоятельно маркировать и аннотировать данные обучения, а 63% заходят так далеко, что пытаются создать свою собственную технологию автоматизации маркировки и аннотации.

Это означает, что огромный процент специалистов по данным теряется из-за процесса маркировки. Это серьезная проблема для эффективного выполнения проекта AI.

По этой причине многие компании передают задачу маркировки другим компаниям. Однако передать задачу маркировки на аутсорсинг является сложной задачей, если для этого требуется достаточное знание предметной области. Компаниям придется инвестировать в формальное и стандартизированное обучение аннотаторов, если им нужно поддерживать качество и согласованность наборов данных.

Другой вариант - разработать собственный инструмент маркировки данных, если данные должны быть помечены сложными. Однако это часто требует больше инженерных затрат, чем сама задача машинного обучения.

Организации изолированы

Данные - важнейшая составляющая проекта машинного обучения. В большинстве организаций эти данные будут находиться в разных местах с разными ограничениями безопасности и в разных форматах - структурированные, неструктурированные, видеофайлы, аудиофайлы, текст и изображения.

Хранение этих данных в разных местах в разном формате само по себе является сложной задачей. Однако проблема удваивается, когда организация изолирована, а ответственные лица не сотрудничают друг с другом.

Отсутствие сотрудничества

Отсутствие сотрудничества между различными командами, такими как специалисты по обработке данных, инженеры по данным, распорядители данных, специалисты по бизнес-аналитике, DevOps и инженеры, является еще одной серьезной проблемой. Это особенно важно для команд в инженерной схеме, связанной с наукой о данных, поскольку существует множество различий в способах их работы и технологиях, которые они используют для выполнения проекта.

Это команда инженеров, которая будет внедрять модель машинного обучения и доводить ее до производства. Итак, между ними должно быть правильное понимание и тесное сотрудничество.

Технически невыполнимые проекты

Поскольку стоимость проектов машинного обучения, как правило, чрезвычайно высока, большинство предприятий, как правило, ориентируются на гипер-амбициозный проект «лунный выстрел», который полностью преобразит компанию или продукт и даст чрезмерную прибыль или инвестиции.

На выполнение таких проектов уйдет вечность, и команда специалистов по анализу данных будет работать на пределе своих возможностей.

В конечном итоге руководители бизнеса потеряют доверие к проекту и прекратят вложение.

Всегда лучше сосредоточиться на единственном достижимом проекте с надлежащим объемом и нацеливаться на дискретную бизнес-задачу.

Проблема согласования между техническими и бизнес-командами

Часто проекты машинного обучения запускаются без четкого согласования ожиданий, целей и критериев успеха проекта между бизнес-командами и командами по анализу данных.

Подобные проекты навсегда останутся на стадии исследования, потому что они никогда не узнают, достигаются ли они какие-либо успехи, поскольку никогда не было ясно, какова была цель.

Здесь команда по анализу данных будет в основном сосредоточена на точности, тогда как бизнес-команда будет больше интересоваться такими показателями, как финансовые выгоды или бизнес-идеи. В конце концов, бизнес-группа не принимает результаты команды Data Science.

Отсутствие стратегии данных

Согласно MIT Sloan Management Review, только 50% крупных предприятий с численностью сотрудников более 100 000 человек, скорее всего, будут иметь стратегию данных. Перед тем, как приступить к проекту машинного обучения, крайне важно разработать надежную стратегию работы с данными.

В рамках стратегии обработки данных вам необходимо четко понимать следующее:

  • Общие данные, которые у вас есть в компании
  • Сколько из этих данных действительно требуется для проектов?
  • Каким образом требуемые лица будут иметь доступ к этим данным и насколько легко эти люди смогут получить к ним доступ?
  • Конкретная стратегия того, как собрать все эти данные из разных источников вместе
  • Как очистить и преобразовать эти данные.

Большинство компаний начинают без плана или даже не думают, что у них нет данных.

Отсутствие поддержки со стороны руководства

Легко подумать, что «вам просто нужно вложить немного денег и технологий в решение проблемы, и результат придет автоматически».

Мы не видим правильной поддержки со стороны руководства, чтобы обеспечить необходимые условия для успеха. Иногда руководители бизнеса не доверяют моделям, разработанным специалистами по данным.

Это может быть связано с недостаточным пониманием ИИ бизнес-лидером и неспособностью специалиста по обработке данных сообщить руководству о бизнес-преимуществах модели.

В конечном итоге лидеры должны понимать, как работает машинное обучение и что на самом деле означает ИИ для организации.