Ваш текущий процесс выбора данных может ограничивать ваши модели.

Массивные наборы данных требуют очевидных затрат на хранение и вычисления. Но две самые большие проблемы часто скрыты: Деньги и Время. С увеличением объемов данных компаниям становится все труднее справляться с огромными размерами.

Для любой компании наивный отбор небольших частей больших наборов данных (например, наборов данных из 1 миллиона изображений или более) кажется разумным, но он упускает из виду огромную ценность. Полезные идеи затеряны в стоге сена неиспользованных данных. Например, как еще можно преодолеть дисбаланс данных, если не с помощью большего количества данных, которые вызывают баланс?

В этом посте мы раскроем две скрытые издержки больших наборов данных и почему нынешние способы использования этих наборов данных дороги и неэффективны.

Оглавление

  1. Введение
  2. Эксклюзивный модельно-ориентированный подход является узким
  3. Почему это имеет значение?
  4. Как выявить эти скрытые расходы
  5. Заключение

1. Введение

Большинство компаний, занимающихся искусственным интеллектом, работают с огромными объемами неразмеченных данных, используя лишь небольшую их часть для разработки моделей. Такой избирательный подход кажется прагматичным, но оставляет за собой невидимую ценность. Без правильных инструментов отбора данных критически важные наборы данных будут погребены под лавиной данных (см. рисунок 1).

Результат? Напрасно потраченные ресурсы, стагнирующие модели и упущенные возможности. Большие наборы данных влекут за собой очевидные огромные затраты — дорогое хранение, высокие затраты на маркировку и дорогостоящие циклы обучения.

Из этого набора затрат затраты на маркировку или аннотации могут быть еще более недооцененными, когда речь идет об очень больших наборах данных. Однако ошибки в метках качества данных часто являются наиболее распространенной проблемой, с которой команды ML сталкиваются при обучении данных (см. рисунок 2).

Однако две самые большие затраты невидимы: деньги и время на преобразование больших немаркированных данных в правильно маркированные данные. У компаний нет решений для выявления и использования наиболее ценных информационных активов.

2. Эксклюзивный модельно-ориентированный подход узок.

Улучшение архитектуры модели само по себе игнорирует другие критические факторы, влияющие на успех: предполагается, что модель сама по себе является решением, а не компонентом.

Эта перспектива, основанная только на модели, не учитывает, насколько сильно данные обучения могут улучшить результаты. Настоящими узкими местами могут быть недостатки в качестве набора данных, охвате и маркировке — никакая настройка модели не может компенсировать плохие данные.

Как показано в Таблице 1, при выборе между моделью и данными лучше распределить бюджет на подход, ориентированный на данные.

Жесткий подход к модели также редко учитывает реальные факторы развертывания.

  • Как будет отличаться производительность за пределами идеальных лабораторных условий?
  • Что делать, если входные данные со временем меняются?

В изолированном моделировании отсутствует понимание опыта реализации.

Единственный надежный способ добиться прогресса в любой задаче, который я видел, это:
Вы курируете набор данных, который является чистым и разнообразным, и расширяете его, и оплачиваете стоимость маркировки. Я знаю, что это работает.

Андрей Карпати, Keynote CVPR’20
Бывший директор по искусственному интеллекту Tesla

Как отмечает Андрей Карпати, простого сбора необработанных данных недостаточно — набор данных должен быть тщательно отобран с целью обеспечения качества и разнообразия. Это означает тщательную проверку данных, устранение нарушений и расширение разнообразия там, где это необходимо.

Да, подготовка больших высококачественных обучающих наборов требует значительных затрат времени и средств на маркировку. Но эти инвестиции не подлежат обсуждению — они напрямую обеспечивают возможности модели, которые вы хотите развивать.

3. Почему это важно?

Существует несколько причин, по которым использование части большого набора данных низкого качества может ограничивать вашу систему машинного обучения:

Модель поведения

  • Смещение выбора. Использование нерепрезентативного подмножества искажает модель — она видит только часть полной картины. Это может исказить поведение модели на новых данных, которые отличаются от выборки.
  • Недооснащение. Недостаточный объем данных может помешать модели полностью изучить ключевые закономерности. Имея только частичные данные, модель никогда не достигает оптимального соответствия.
  • Чрезмерная коррекция. Если набор для проверки или тестирования непропорционален, он может неправильно предложить необходимые настройки. Затем модель подвергается чрезмерной корректировке, чтобы соответствовать искаженной выборке. На практике такое случается очень часто!

Тихие сбои модели

  • Крайние случаи. Подмножество может не в достаточной степени отражать все разнообразие объектов/сценариев. В результате модель с большей вероятностью потерпит неудачу в редких или крайних случаях, которые она редко/никогда не видела во время обучения.
  • Плохое обобщение. Производительность медленно снижается при новых распределениях данных, поскольку модель сталкивается с более незнакомыми примерами. Снижение происходит постепенно, а не внезапно.
  • Логичные, но неверные прогнозы. Модель дает высокую достоверность, но неправильные прогнозы. Например, принятие визуально похожего объекта за цель.

3. Как выявить ваши скрытые расходы

Основная причина проблемы: слишком много данных! 🙀

Когда модели терпят неудачу, наш инстинкт часто заключается в том, чтобы использовать больше данных для решения проблемы. Но при работе с огромными наборами данных размер становится врагом. Обширные тома скрывают важные данные и создают проблемы, как иголка в стоге сена.

Включение всех данных в модель не только приводит к уменьшению отдачи — незначительным улучшениям при больших усилиях и затратах, но также вызывает множество проблем, которые мы описали в предыдущем разделе (например, тихие сбои модели).

Коренная проблема заключается не в недостаточном количестве данных, а в неэффективном хранении и выборке. Больше данных просто скрывает те самые ценные данные, которыми вы уже обладаете. Командам ML нужны решения, позволяющие выявлять и выборочно использовать наиболее информативные образцы: ключ 🔑 заключается в переходе от бессистемного сбора данных к точному нацеливанию на высокоэффективные подмножества.

Стоимость маркировки 💰 в цифрах

Маркировка всех данных (т. е. неэффективный способ определить, какие данные являются ценными) кажется решением грубой силы, но оказывается чрезвычайно дорогим и медленным. Этот наивный подход затрудняет идентификацию наиболее ценных образцов, скрытых в огромных наборах данных.

Предположим, у нас есть набор данных из 100 000 изображений, каждое из которых имеет 50 ограничивающих рамок. общая стоимость маркировки этого набора данных составляет 200 000 долларов США или 1041 рабочий день, более подробную информацию см. на рисунках 4, 5 и 6.

А что, если вместо 100 000 изображений у вас будет 1 000 000 изображений? Если предположить, что затраты растут линейно, мы получим, что затраты на маркировку составят примерно 2 миллиона долларов США или 10 000 рабочих дней! 🙀

Вдобавок к этому нам, возможно, придется добавить вычислительные затраты на обучение набора из 1 000 000 изображений. Для простоты в этой статье мы сосредоточимся только на затратах на маркировку.

Выявление критически важных данных за дни, а не годы

Как теперь решить эту проблему? Одним из решений этой проблемы является использование подходов, позволяющих разумно выбирать данные. Активное обучение [1,2] — один из таких подходов.

Активное обучение с помощью таких методов, как Выбор основного набора [3] может позволить вашей команде сократить потребности в размеченных данных с миллионов образцов до целевых подмножеств размером менее 20 000. Аналогично, необходимое время маркировки может быть сокращено с 10 000 дней до всего 100 дней.

«Цель активного обучения — найти эффективные способы выбора точек данных для маркировки из пула немаркированных точек данных, чтобы максимизировать точность». [2]

Имея команду всего из 10 специалистов по маркировке, компании могут аннотировать важные образцы за 2 недели, а не за десятки месяцев, необходимые для исчерпывающей маркировки.

😀 Следите за будущими публикациями об активном обучении!

4. Вывод

При работе с большими наборами данных больше не всегда означает лучше. Неизбирательное агрегирование данных скрывает важные выборки и влечет за собой огромные скрытые затраты в виде денег и времени.

Команды ML, ориентирующиеся на нужные подмножества данных, а не на использование только части своих данных, могут раскрыть весь потенциал немаркированных данных, которыми они уже обладают.

Без уменьшения масштаба для оценки всего процесса машинного обучения модельно-ориентированное мышление может направиться в непродуктивном направлении. Компания пытается заново изобрести модель, в то время как более простые решения, такие как подходы, ориентированные на данные, могут оказаться более эффективными.

Компании, которые используют точные и эффективные методы работы с данными, сделают шаг вперед, сэкономив время, деньги и получив прибыль, превосходящую ту, которую когда-либо могли бы принести огромные наборы данных в одиночку.

Рекомендации

[1] Обзор глубокого активного обучения

[2] Активное обучение: постановка проблем и последние события

[3] Активное обучение для сверточных нейронных сетей: базовый подход

Авторы: Хосе Габриэль Ислас Монтеро, Ботти Диманов, Дмитрий Каждан

Если вы хотите узнать больше о Тениксе, посетите наш сайт здесь. Если вы заинтересованы в получении раннего доступа к нашей платформе анализа отказов, напишите нам по адресу [email protected].