Обычно мы встречаемся с командой специалистов по данным организации после того, как они провели успешную проверку концепции. Алгоритм, который они построили или приобрели, дал результаты, которые были достаточно многообещающими, чтобы дать зеленый свет разработке производственной системы машинного обучения.

Именно в этот момент на первый план часто выходит незрелость управления проектами машинного обучения. По нашему опыту, есть пять препятствий, которые приглушают сияние опыта POC.

1. Необработанные данные, которые они будут использовать для обучения алгоритма, находятся в непригодной для использования форме

Большинство наших клиентов имеют собственные данные. На самом деле, у них очень много данных. Проблема в том, что их данные неорганизованы, не чисты и часто хранятся в различных форматах и ​​местах.

Команды специалистов по обработке и анализу данных постоянно сталкиваются с этим, и это хорошо задокументированный источник их профессиональной неудовлетворенности. Проекты здесь часто останавливаются, так как команда вынуждена приводить свои данные в форму, позволяющую обогащать их в качестве обучающих данных.

2. Стратегия подготовки данных для обучения команды не даст достаточно данных

Специалисты по данным полностью понимают, сколько обучающих данных требуется их проекту. Они недооценивают то, что нужно для производства такого количества обучающих данных.

На нашей первой встрече с командой специалистов по данным довольно часто можно услышать, как они говорят: «Мы израсходовали большую часть нашего бюджета, мы сильно отстаем от графика, и наша модель не соответствует уровню достоверности, который нам нужен». Каждую свободную минуту команда тратит на маркировку и аннотирование данных, обычно с использованием неподходящих технологий, и этому не видно конца.

[Содержание по теме: 20 бесплатных ресурсов ODSC для изучения машинного обучения]

3. Команде не хватает навыков работы с производственным программным обеспечением

Здесь нет ничего удивительного. Специалисты по данным тратят годы на то, чтобы научиться создавать алгоритмы и работать с данными. Их ничему не учат об управлении проектами, разработке задач, управлении рабочими процессами или стратегии контроля качества данных, не говоря уже о создании производственного программного обеспечения.

Отчасти это отражает незрелость операций машинного обучения как дисциплины. Это также отражает нехватку опытных инженеров-программистов машинного обучения и других должностей, более ориентированных на проекты. Тем не менее, это слабое утешение для группы специалистов по обработке и анализу данных, пытающихся выполнять функции, выходящие за рамки их обучения или опыта.

4. Команде не хватает инфраструктуры для обеспечения качества обучающих данных в нужном масштабе

Небольшие размеры выборки и нечеткие критерии достоверности делают качество данных менее проблематичным во время проверки концепции. Но когда цель состоит в том, чтобы создать систему, которая предлагает возврат инвестиций, если не больше, ставки становятся выше. Команды нуждаются в гораздо большем количестве обучающих данных, и внезапно качество приобретает первостепенное значение. И данные в таком масштабе нельзя проверить вручную на точность.

Подготовка обучающих данных для реального использования требует сложного плана обеспечения качества с учетом многократных проходов, принятия решений на основе консенсуса, вставки золотых данных и так далее. И для этого требуется технологическая платформа, которая обеспечивает представление в режиме реального времени о качестве данных и производительности труда.

5. В тренировочных данных есть погрешность

Как свидетельствуют бесчисленные ошеломляющие заголовки, предвзятость обучающих данных является еще одним препятствием для создания производственной системы машинного обучения. Существует несколько типов смещения, каждое из которых может по-разному влиять на производительность и надежность модели.

Источники этих предубеждений и методы их смягчения хорошо известны. Все социологи изучают соответствующие методы. Но хотя специалисты по данным прекрасно понимают последствия предвзятости обучающих данных, они обычно не обучены обнаруживать или исправлять ее.

Если после прочтения этого вы пришли к выводу, что ваша организация тоже страдает от незрелости операций машинного обучения, вы не одиноки. И у вас есть много вариантов, как вывести себя из этого состояния. Мы подготовили План подготовки данных для обучения машинному обучению, который предлагает подробный контрольный список подходов к подготовке к запуску производственной системы машинного обучения.

Исходное сообщение здесь.

Читайте другие статьи по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от начального до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.