Эффективные модели машинного обучения требуют высококачественных данных. И обучение вашей модели машинного обучения — это не один конечный этап вашего процесса. Даже после того, как вы развернете его в производственной среде, вам, вероятно, понадобится постоянный поток новых обучающих данных, чтобы обеспечить прогнозируемую точность вашей модели с течением времени.

В конце концов, обучающие данные явно вызывают атрибуты в наборе данных, которые представляют основную истину во внешнем мире, который постоянно меняется. Без периодического переобучения точность модели со временем будет естественным образом снижаться по мере изменения переменных реального мира.

В этой статье мы обсудим, почему важно продолжать переобучение ваших моделей машинного обучения, независимо от того, насколько строгим может быть ваш первоначальный процесс обучения данных. Мы также обсудим подходы к переобучению и преимущества каждого из них.

Наконец, мы расскажем, как вы можете предвидеть необходимость последующих обновлений в начале любого проекта машинного обучения. Внедряя процессы переобучения с самого начала, вы создадите устойчивую прогностическую модель.

Дрейф данных и необходимость переобучения

Почему большинство моделей машинного обучения необходимо обновлять, чтобы они оставались точными? Ответ заключается в характере обучающих данных и в том, как они информируют прогностические функции моделей машинного обучения.

Данные для обучения — это статический набор данных, из которого модели машинного обучения экстраполируют закономерности и взаимосвязи и формируют прогнозы на будущее.

По мере изменения реальных условий обучающие данные могут быть менее точными в своем представлении истинной наземной информации. Представьте себе модель машинного обучения, используемую для прогнозирования стоимости аренды в 50 крупных городских районах. Данные об обучении с 2000 по 2019 год могут предсказать цены на аренду на 2020 год с впечатляющей точностью. Вероятно, это будет менее эффективно для прогнозирования цен на аренду на 2050 год, потому что фундаментальная природа рынка жилья, вероятно, изменится в ближайшие десятилетия.

Применение обработки естественного языка (NLP) для обучения чат-бота дает еще одну полезную иллюстрацию дрейфа данных. То, как мы используем язык, постоянно развивается, поэтому семантический анализ обучающих данных, на котором работает чат-бот, должен обновляться, чтобы отражать текущий язык. Представьте себе попытку использовать обучающие данные 1980-х годов для обучения чат-бота взаимодействию с современными потребителями. Через 40 лет язык может существенно измениться, что вызовет необходимость в обновлении обучающих данных.

Это явление было описано несколькими способами, включая дрейф данных, дрейф концепции и распад модели. Как бы вы это ни называли, это представляет собой суровую правду машинного обучения: в какой-то момент в будущем ваши обучающие данные больше не будут служить основой для точного прогнозирования.

Ответом на эту неизбежную проблему является регулярное переобучение вашей модели с использованием новых или расширенных данных. Действительно, обучение вашей модели — это непрерывный процесс, особенно если важно качество.

Как следует подходить к обновлению модели машинного обучения? Проще говоря, у вас есть два варианта: переобучить модель вручную с использованием обновленных входных данных или создать модель, предназначенную для непрерывного обучения на основе новых данных.

Ручной подход к переобучению модели

Ручной подход к обновлению модели машинного обучения, по сути, заключается в дублировании ваших первоначальных процессов обучения данных, но с более новым набором входных данных. В этом случае вы сами решаете, как и когда подавать алгоритму новые данные.

Жизнеспособность этого варианта зависит от вашей способности регулярно получать и подготавливать новые обучающие данные. Вы можете отслеживать производительность своей модели с течением времени, определяя, когда необходимо обновление. Если точность вашей модели заметно ухудшается, может потребоваться переобучение с использованием обновленных данных.

Одним из преимуществ этого подхода является то, что переделка часто может привести к инсайтам и инновациям. Если вы внимательно следите за своей моделью и выявляете недостатки, вы можете обнаружить ценность включения дополнительных данных или пересмотра вашего алгоритма более фундаментальными способами.

Подход непрерывного обучения к переобучению моделей

Модели непрерывного обучения включают новые потоки данных, часто из производственной среды, в которой они были развернуты.

Потребители ежедневно взаимодействуют с моделями машинного обучения, использующими непрерывное обучение. Рассмотрим платформу потоковой передачи музыки Spotify, которая использует совместную фильтрацию, чтобы предоставлять пользователям рекомендации, основанные на предпочтениях других пользователей со схожими вкусами, для создания ценности и конкурентного преимущества.

Когда пользователи Spotify слушают музыку, данные, относящиеся к их выбору, возвращаются обратно в алгоритмы прогнозирования компании. Получающийся в результате цикл обратной связи уточняет рекомендации, которые приложение предлагает своим пользователям, и позволяет персонализировать их на высоком уровне, например создавать персонализированные плейлисты, созданные машиной. Другие ведущие поставщики потребительских медиауслуг, такие как Netflix, используют аналогичные системы непрерывного обучения.

Как и следовало ожидать, технические знания и ресурсы, необходимые для создания этих систем, просто недоступны для многих организаций. Кроме того, вам понадобится постоянный поток данных, готовых для автоматической интеграции. В модели непрерывного обучения вмешательство человека возможно, но оно представляет собой реальное узкое место. Spotify, например, не нуждается в том, чтобы данные, сгенерированные миллионами его пользователей, очищались или форматировались людьми перед тем, как вернуться в его алгоритм.

Независимо от того, кажутся ли ручные обновления или постоянное обучение более эффективным (и осуществимым) вариантом, вам необходимо стратегически подумать о рабочей силе и технологиях, которые вы будете использовать для получения новых данных в целях переподготовки. Если вы планируете использовать свою модель в обозримом будущем, вам потребуются необходимые ресурсы, чтобы поддерживать ее в актуальном состоянии.

Предвосхищая эволюцию: выбор команды

Для создания обучающих данных требуется стратегическое сочетание людей, процессов и инструментов. Чтобы справиться с неоднозначностью сбора, очистки и маркировки данных, вам понадобится эффективный технологический и человеческий стек, который включает в себя квалифицированных специалистов и передовые технологии.

Многие организации не могут управлять собственными командами или масштабировать их для подготовки обучающих данных, поэтому они ищут альтернативные способы использования человеческого интеллекта. Краудсорсинг труда является распространенным выбором, позволяя вам задействовать сотни анонимных работников в кратчайшие сроки.

Тем не менее, есть скрытые издержки, связанные с анонимным краудсорсингом, в том числе плохая коммуникация с работниками, что может привести к некачественной работе. И если эти недостатки очевидны, когда вы разрабатываете свой первоначальный набор данных для обучения, они будут особенно разочаровывать, когда вы будете пытаться переобучить и обновить свою модель в будущем.

С анонимной группой краудсорсинговых работников почти невозможно осуществлять надзор или передавать институциональную память. Каждый раз, когда вы разрабатываете новые обучающие данные, вы рискуете обнаружить новые несоответствия и проблемы с производительностью.

CloudFactory предлагает еще один вариант: управляемая команда CloudWorkers, которые готовы трансформировать ваши операции с данными. Вы можете привлечь нашу рабочую силу квалифицированных специалистов для удовлетворения ваших конкретных потребностей в данных, увеличивая или уменьшая масштаб по мере необходимости. Вы получите обслуживание и общение настоящей команды с гибкостью краудсорсингового труда, что позволит снизить затраты без ущерба для эффективности.

Если вы стремитесь поддерживать эффективность своих моделей машинного обучения в долгосрочной перспективе, вам потребуется достаточно гибкий персонал, чтобы удовлетворить ваши текущие потребности в обучающих данных. Взгляните на наш масштабируемый подход к машинному обучению и узнайте, как мы помогли другим компаниям решить проблемы с данными, внедрить инновационные продукты и изменить их отрасли.

Первоначально опубликовано на https://blog.cloudfactory.com.