Контекст. Модели машинного обучения (МО) могут повысить свою точность за счет улучшения данных, из которых они считываются, или самой модели. В прошлом году Эндрю Нг выступал за переход к более ориентированному на данные подходу с использованием MLOps для развертывания проектов. Эндрю — один из ведущих мыслителей и преподавателей в этой области, основатель Coursera (отличные курсы по ML и глубокому обучению), профессор Стэнфорда и один из авторов Google Brain и Baidu.

Источник:исходная 1-часовая прямая трансляция «Беседа с Эндрю о MLOps: от ориентированного на модели к ориентированному на данные ИИ»:

Определение MLOps. MLOps — это зарождающаяся область, которая пытается сделать разработку и развертывание проектов машинного обучения более систематизированной. Это набор методов и инструментов, направленных на надежное и эффективное развертывание и поддержку моделей машинного обучения в производственной среде.

Улучшение данных и улучшение модели: ориентация на данные и модель

  • Была проделана большая работа по улучшению моделей машинного обучения — неофициальный пример: из 100 исследовательских работ на arXiv примерно 99 сосредоточены на моделях, только 1 — на данных. В настоящее время модели машинного обучения легко доступны, вследствие чего качество моделей уже является первоклассным, и поэтому во многих проектах гораздо более рентабельно работать с данными для повышения производительности.
  • Если у нас есть достаточно хорошие данные (с низким уровнем шума), обычно есть несколько моделей, которые будут хорошо с ними работать. Современные нейронные сети представляют собой машины с низким смещением (они обычно идеально подходят для небольших (‹10 000) обучающих наборов), поэтому повышение производительности обычно является проблемой дисперсии, и это может выиграть от улучшения данных. набор.

От больших данных к хорошим данным:

  • Последовательная маркировка данных имеет основополагающее значение для обучения с учителем: маркировщики должны следовать одним и тем же правилам или соглашениям, особенно в случаях, которые могут быть помечены по-разному:

  • Предлагаемый порядок действий MLOps: попросите двух независимых маркировщиков пометить образец, измерить их согласованность, чтобы обнаружить разногласия, а затем пересмотреть инструкции по маркировке для этих сложных для маркировки случаев, пока они не станут согласованными.
  • Для небольших наборов данных (‹10 КБ) контроль шума в данных гораздо важнее — огромные наборы данных привлекают больше внимания в СМИ, но с чистыми данными меньшие наборы данных могут хорошо работать. Наличие процессов и инструментов, которые создают хорошие, свободные от шума данные, имеет решающее значение.

  • Сбор дополнительных данных по сравнению с очисткой существующих данных.Если у вас есть 500 примеров, из которых 12 % зашумлены (60), такая же производительность будет достигнута при очистке шумные примеры или получение 500 новых примеров. Последнее обычно требует гораздо больше времени, так как более эффективно очищать набор данных. Это тем более верно, чем меньше набор данных, а также применимо к проблемам с длинным хвостом.

Развертывание систем ИИ с ориентированным на данные представлением:

  • Систематизация — итеративное улучшение данных: 1 — обучение модели,
    2 — анализ ошибок для определения типов данных, с которыми алгоритм плохо справляется, 3 —Либо получить больше таких данных (сбор данных/дополнение/генерация), либо улучшить эти данные (более согласованные метки).
  • В традиционном программном обеспечении инженер-программист передает код команде devOps, которая поддерживает код в производстве. В программном обеспечении ИИ передать этап развертывания команде DevOPs сложнее. Данные о производительности должны отслеживаться после развертывания, и должен быть введен новый обратный поток данных, чтобы можно было проверить распределение данных, чтобы покрыть отклонение данных и концепций для постоянного уточнения модели.

  • Единственная наиболее важная цель команды MLOps или инструментов MLOps — обеспечить согласованные высококачественные данные на протяжении всего жизненного цикла проекта ML.
  • MLOps — это зарождающаяся область, и большинство крупных компаний/проектов используют большинство самостоятельно разработанных пользовательских инструментов, есть много возможностей для улучшения и развития.

Заключение. В интересах крупных компаний настаивать на том, чтобы для машинного обучения требовались гигантские наборы данных. Это устраняет конкуренцию со стороны небольших компаний, но это не всегда так. Есть крупные компании, которые сознательно настаивают на важности гигантских наборов данных.