Разрешит это или запретит?

Популярность решений AutoML в последние годы возросла. Есть много компаний, предлагающих широкий спектр решений. Эти решения ориентированы на общие бизнес-проблемы и задачи, часто выполняемые специалистами по обработке данных.

Ниже приведен список лучших решений AutoML. Этот список составлен на основе данных аналитика технологической индустрии AIMultiple.

DataRobot, Dataiku, H2O, Compellon, Enhencer, Akkio, TPOT, dotData, BigML, Prevision.io, TIMi Suite, B2Metric , MLJAR, DMWay, Auto-sklearn, Aible, Auto-WEKA, Tazi.ai, PurePredictive, Caret, Xpanse AI, OptiScorer, Auger .ai

Технологические гиганты также используют свою существующую инфраструктуру для продвижения решений AutoML. У них есть продукты для создания, развертывания и масштабирования решений машинного обучения. На большинстве облачных платформ есть специализированные продукты, предназначенные для распознавания изображений и анализа текста. Они также предлагают продукты для построения высокопроизводительных моделей машинного обучения на основе структурированных данных. Эти решения довольно хороши в выборе функций, выборе модели и настройке модели.

По данным ResearchAndMarkets, рынок AutoML принес доход в размере 269,6 млн долларов в 2019 году. Ожидается, что к 2030 году он достигнет 1,5 млрд долларов. Это также предполагает, что предпочтение отдается облачным решениям AutoML. Поскольку они предлагают масштабируемость и гибкость для настройки решений.

Преимущество AutoML

Многие задачи, выполняемые специалистами по обработке данных, повторяются и отнимают много времени. Это ограничивает способность группы специалистов по анализу данных работать над большим количеством бизнес-задач. Большинство групп по анализу данных в конечном итоге сосредотачиваются только на критически важных для бизнеса вопросах. Вот как AutoML расширит возможности команды специалистов по анализу данных

Сохранение времени

  • AutoML позволит автоматизировать повторяющиеся и выполняемые вручную задачи, которые подвержены человеческим ошибкам.
  • AutoML сократит усилия, необходимые для очистки данных, исследования и разработки функций, с недель до дней.
  • AutoML упростит выбор модели и мониторинг производительности
  • Настройку гиперпараметров можно полностью автоматизировать с помощью AutoML.

Уровень игрового поля

  • Высокопроизводительная предварительно обученная модель машинного обучения будет доступна каждому
  • AutoML сделает машинное обучение доступным для многих предприятий малого и среднего бизнеса.
  • Упростит использование неструктурированных данных при принятии бизнес-решений
  • Увеличит участие нетехнических пользователей в решении проблем, связанных с данными

Влияние AutoML на проекты в области науки о данных

AutoML создаст волновой эффект на протяжении всего жизненного цикла проекта по науке о данных. Это изменит ландшафт рабочих мест в области науки о данных. Ниже приведены типичные этапы проекта по обработке и анализу данных. Давайте посмотрим, как AutoML влияет на эти этапы.

Деловое понимание

Первый шаг в любом проекте по науке о данных - это хорошо понять проблему. AutoML в целом имеет наименьшее влияние в этой области. Лучшее, что может сделать AutoML, - это автоматизировать некоторые популярные и стандартные проекты в области науки о данных. Одним из примеров является прогнозирование мошенничества в банковской сфере. Шаблоны мошенничества могут не сильно меняться от одного клиента к другому. Будет легко создать шаблон решения и вывести его на рынок. В эти готовые решения будут включены бизнес-знания.

Сможет ли AutoML автоматизировать все бизнес-задачи? Ответ однозначно нет! Есть много сценариев, которые можно автоматизировать или даже воспроизвести. Но обязательно глубокое понимание бизнес-проблемы.

Сбор и очистка данных

Продукты AutoML обязательно будут иметь доступ к данным, представленным на платформе. Встраивать новые данные в продукты AutoML будет намного проще. Например, в GCP можно легко импортировать данные в таблицы AutoML в виде плоских файлов или с помощью BigQueries. Использование внешних наборов данных часто дает лучшие результаты при решении многих задач. Для определения релевантных внешних данных необходимы предметные знания специалиста по данным.

После импорта необходимого набора данных следующим шагом будет очистка данных. Этот шаг, как правило, утомителен и требует большого внимания со стороны специалистов по данным. Наборы данных, как правило, недостаточно чисты для использования моделей машинного обучения. Решения AutoML здесь очень пригодятся. Мы смогли бы очистить данные намного быстрее.

AutoML сможет ускорить сбор и очистку данных. Можно будет приложить необходимые усилия от недель до дней. Но знания специалиста по данным будут ключом к достижению наилучшего решения.

Функциональная инженерия

Это итеративный процесс, который занимает много времени в проекте по обработке и анализу данных. С AutoML будет легко реализовать некоторые задачи по проектированию функций. Такие задачи, как нормализация, быстрое кодирование, биннинг, форматирование, могут быть выполнены одним нажатием кнопки.

Можно ли полностью автоматизировать проектирование функций? Короткий ответ: нет. Многие задачи, выполняемые при разработке функций, станут доступными. Но только команда специалистов по анализу данных может включить в функции бизнес-аналитику. Кроме того, для достижения наилучших результатов часто требуется искать неизвестные. Использование известных функций и преобразований поможет лишь в определенной степени. Чтобы добиться высокой производительности, кому-то нужно заглянуть в неизвестное.

Построение модели / идеи

Проекты в области обработки данных относятся к 2 широким категориям. Один из них включает построение модели, а другой - на основе идей или рекомендаций. AutoML может быть очень полезен в проектах, связанных с построением моделей. AutoML упрощает выбор, настройку и отслеживание модели. Таким образом, у специалистов по анализу данных появляется время для работы над большим количеством проблем.

Для проектов, связанных с извлечением инсайтов, необходимы бизнес-знания. С AutoML много внимания будет уделяться этой области. Предоставление командам специалистов по анализу данных возможности выполнять больше задач, ориентированных на понимание.

Развертывание

Во многих проектах по обработке и анализу данных развертывание никогда не было простым. При переносе моделей из одной среды в другую возникнут проблемы. Любая незначительная разница между средами, например версиями программного обеспечения, может вызвать проблемы. Кроме того, производственная среда обычно ограничена. Сложность внесения изменений или отслеживания производительности моделей машинного обучения.

AutoML встряхнул это пространство. Теперь можно развернуть модели за считанные минуты.

Что это значит для специалистов по данным?

В ближайшие несколько лет решения AutoML будут широко доступны. Компании любого размера будут иметь доступ к одним и тем же передовым решениям. Чтобы превзойти компании, нужно сосредоточиться на проблемах, которые не может решить AutoML. Это откроет множество новых возможностей для специалистов по данным.

Произойдут изменения в ролях и обязанностях команды специалистов по анализу данных. Акцент сместится на более сложные вопросы, требующие человеческого опыта и знаний предметной области.

Вот некоторые проблемы, для решения которых требуются бизнес-знания и информация о реальных условиях.

  • Для задач, связанных с аналитикой, таких как определение причин оттока клиентов, необходимы знания предметной области. Отток клиентов может быть вызван множеством внутренних и внешних факторов. Только лучшее знание ландшафта данных и предметной области может дать лучшие результаты.
  • Измерение и отслеживание эффективности различных функций / продуктов, предлагаемых компанией. Для определения и построения показателей потребуются бизнес-знания.
  • Развернутые модели требуют постоянного мониторинга. Со временем все изменится, и это повлияет на производительность модели. Для их исправления потребуются специалисты по данным.
  • Проблемы, которые четко не определены заинтересованными сторонами бизнеса. Требуется фундамент, чтобы сначала четко понять проблему.

AutoML, скорее всего, откроет целый ряд новых возможностей, которые предстоит решить специалистам по данным. AutoML не следует рассматривать как инструмент, заставляющий специалистов по обработке данных устаревать. Да, AutoML будет выполнять множество задач, которые в настоящее время выполняются специалистами по данным. Он мог бы выполнять эти задачи намного лучше. Но это приведет к лучшим задачам, которые должны быть решены командой по анализу данных.

Заключительные слова

Специалисты по обработке данных сместят акцент в большей степени на лучшее понимание проблемы. AutoML увеличит продуктивность команды специалистов по анализу данных и расширит возможности, а не запретит.

Оставаться на связи