Автоматизированное машинное обучение (AutoML) | Новая тенденция в машинном обучении

Цифровая трансформация определяется в первую очередь данными. Поэтому сегодня компании ищут как можно больше возможностей извлечь максимальную пользу из своих данных. На самом деле, в последние годы машинное обучение (ML) стало быстрорастущей силой во всех отраслях.

Влияние машинного обучения на развитие программного обеспечения и услуг в 2017 году было огромным для таких компаний, как Microsoft, Google и Amazon. И полезность машинного обучения продолжает развиваться в компаниях всех размеров: примеры включают предотвращение мошенничества, чат-боты обслуживания клиентов в банках, автоматический таргетинг на потребительские сегменты в маркетинговых агентствах и предложения по товарам электронной коммерции и персонализации розничных продавцов.

Хотя машинное обучение является горячей темой, существует еще одна популярная тенденция: автоматизированная платформа машинного обучения (AutoML).

Определение AutoML (автоматическое машинное обучение)

Область AutoML развивается так быстро, что, согласно TDWI, не существует общепринятого определения. По сути, добавляя ML к самому ML, AutoML предоставляет экспертные инструменты для автоматизации повторяющихся задач. Согласно исследованию Google, цель автоматизации машинного обучения состоит в том, чтобы создать для компьютеров методы автоматического решения новых проблем машинного обучения без необходимости участия специалистов по машинному обучению в каждом новом вопросе. Эта возможность приведет к созданию действительно интеллектуальных систем.

Кроме того, возможности генерируются благодаря AutoML. Эти типы технологий, в конце концов, требуют профессиональных исследователей, специалистов по данным и инженеров во всем мире, но таких должностей не хватает. Действительно, эти должности так плохо заполнены, что возник «гражданский специалист по данным». Эта дополнительная должность, а не прямая замена, нанимает людей, которым не хватает специализированных передовых знаний в области анализа данных. Но, используя современное диагностическое и прогностическое программное обеспечение, они могут создавать модели. Эта возможность связана с появлением AutoML, который может автоматизировать многие задачи, которые когда-то выполняли специалисты по данным.

Чтобы компенсировать нехватку экспертов по ИИ/МО, пример AutoML может автоматизировать некоторые из наиболее рутинных операций МО, повышая при этом производительность специалистов по обработке и анализу данных. Задачи, которые можно автоматизировать, включают выбор источников данных, выбор функций и подготовку данных, что высвобождает время маркетологов и бизнес-аналитиков, чтобы сосредоточиться на основных задачах. Например, специалисты по данным могут настраивать больше новых алгоритмов, создавать больше моделей за меньшее время и повышать качество и точность модели.

Автоматизация и алгоритмы

По данным Harvard Business Review, организации обратились к расширению возможностей прогнозирования. Для этого они объединили обширные данные со сложным автоматизированным машинным обучением. AutoML позиционируется как предоставляющий возможности для демократизации ML, позволяя компаниям с минимальным опытом в области науки о данных создавать аналитические конвейеры, способные решать сложные бизнес-задачи.

Чтобы проиллюстрировать, как это работает, текущий конвейер ML состоит из предварительной обработки, извлечения функций, выбора функций, разработки функций, выбора алгоритмов и настройки гиперпараметров. Но из-за значительного опыта и времени, необходимого для обеспечения соблюдения этих мер, существует высокий барьер для входа.

Одно из преимуществ AutoML заключается в том, что он устраняет некоторые из этих ограничений, существенно сокращая время, которое обычно требуется для выполнения процесса машинного обучения под контролем человека, а также повышая точность модели по сравнению с моделями, обученными и развернутыми людьми. Принимая это, он побуждает компании присоединяться к ML и высвобождать ресурсы специалистов по обработке данных и инженеров ML, позволяя им сосредоточиться на более сложных и сложных задачах.

Различные варианты использования AutoML

По данным Gartner, к 2020 году около 40% операций по обработке и анализу данных должны быть автоматизированы. Эта автоматизация приведет к более широкому использованию данных и аналитики гражданскими специалистами по данным и повышению производительности квалифицированных специалистов по данным. Инструменты AutoML для этой группы пользователей обычно предоставляют простой в использовании интерфейс укажи и щелкни для загрузки моделей машинного обучения для построения данных. Большинство инструментов AutoML концентрируются на построении моделей, а не на автоматизации отдельных бизнес-функций в целом, таких как маркетинговая аналитика или клиентская аналитика. Однако большинство инструментов AutoML и платформ машинного обучения не решают проблемы текущего планирования данных, сбора данных, разработки функций и интеграции данных.

Однако большинство инструментов AutoML и платформ машинного обучения не решают проблемы текущего планирования данных, сбора данных, разработки функций и интеграции данных. Это оказывается проблемой для специалистов по обработке и анализу данных, которым приходится работать с большими объемами потоковых данных и распознавать неочевидные тенденции. Они по-прежнему не могут оценивать потоковые данные в режиме реального времени. А плохие бизнес-решения и ошибочная аналитика могут возникнуть, если данные не проанализированы должным образом.

Автоматизация построения моделей

Некоторые предприятия перешли на AutoML для автоматизации внутренних процессов, особенно для построения моделей машинного обучения. Возможно, вы знаете некоторые из них, в частности Facebook и Google. И Facebook активно занимается машинным обучением каждый месяц, обучая и тестируя около 300 000 моделей машинного обучения, по сути, создавая сборочную линию машинного обучения для работы с таким количеством моделей. Asimo — это имя разработчика AutoML для Facebook, который автоматически создает расширенные версии существующих моделей. Google также входит в ряды, внедряя методы AutoML для автоматизации процесса обнаружения моделей оптимизации и автоматизации разработки алгоритмов машинного обучения.

Автоматизация сквозного бизнес-процесса

В некоторых случаях можно автоматизировать целые бизнес-процессы после разработки моделей машинного обучения и выявления бизнес-проблемы. Требуется предварительная обработка данных и правильное проектирование функций. Zylotech, DataRobot и Zest Finance — компании, которые в основном используют AutoML для полной автоматизации различных бизнес-процессов.

Zylotech был разработан для всего процесса автоматизации клиентской аналитики. Платформа включает в себя ряд автоматизированных моделей ML со встроенным аналитическим механизмом (EAE), автоматизирующим аналитику клиентов, входящую в процесс ML, например конвергенцию, разработку функций, обнаружение шаблонов, подготовку данных и выбор модели. Zylotech позволяет специалистам по данным и гражданским специалистам по данным получать доступ к полным данным практически в режиме реального времени, что позволяет персонализировать потребительский опыт.

DataRobot был разработан для автоматизации прогнозной аналитики в целом. Платформа автоматизирует весь жизненный цикл моделирования, включая преобразования, прием данных и выбор алгоритмов. Программное обеспечение можно модифицировать и адаптировать для конкретных применений, таких как прогнозирование больших объемов, и можно создать большое количество различных моделей. DataRobot позволяет гражданским специалистам по данным и специалистам по данным легко применять алгоритмы прогнозной аналитики и быстро разрабатывать модели.

ZestFinance был в первую очередь разработан для полной автоматизации различных операций по андеррайтингу. Платформа автоматизирует подготовку модели, ее развертывание и ассимиляцию данных, а также разъяснения по применению. Он использует ML для оценки обычных и нетрадиционных кредитных данных, чтобы оценить потенциальных кредиторов, у которых нет файлов рядом с ними. AutoML используется для предоставления заемщикам инструментов для обучения и развертывания моделей ML для различных вариантов использования, таких как маркетинг и предотвращение мошенничества. Это также позволяет финансовым аналитикам и инвесторам лучше оценивать риски и принимать более обоснованные решения о кредитовании.

Помогите предприятиям успешно использовать машинное обучение

Новая нефть может быть информативной, но даже сырую нефть необходимо «расщепить», прежде чем она станет пригодными для использования молекулами. Точно так же для встроенных молекул данные о потребителе должны быть уточнены, прежде чем из них можно будет сделать выводы. Следовательно, данные не являются необходимыми сразу, но могут быть полезны после их обработки, очистки, уточнения и подготовки к изучению.

Подход AutoML помогает компаниям эффективно использовать машинное обучение, поскольку будущая рыночная информация скрыта там, где только машинное обучение может помочь. Независимо от того, в какой отрасли вы работаете, AutoML — это метод, необходимый для извлечения этого ценного ресурса и его использования.

А поскольку компании все больше полагаются на гражданских специалистов по данным, журнал Gigabit Magazine прогнозирует, что 2020 год, вероятно, станет годом, когда AutoML станет основным направлением внедрения на предприятиях. Стратегии и инструменты искусственного интеллекта и машинного обучения станут более неотъемлемой частью повседневной деятельности и мышления компаний, поскольку они будут более заинтересованы в признании проектов, чей опыт будет способствовать более эффективному принятию решений и инновациям.

2020 — год машинного обучения

Компании во всем мире ищут способы получить как можно больше информации из своих данных в качестве топлива, которое поддерживает их текущие усилия по цифровой трансформации. Кроме того, в результате возросший спрос на продвинутую предиктивную и предписывающую аналитику вызвал потребность в более квалифицированных специалистах по данным с новейшими инструментами для искусственного интеллекта (ИИ) и машинного обучения (МО).

Но эти высококвалифицированные специалисты по обработке и анализу данных дороги и дефицитны. На самом деле они настолько ценный ресурс, что недавно возникло движение «гражданский специалист по данным», призванное помочь сократить разрыв в навыках.

Гражданские специалисты по данным не имеют специализированных передовых навыков в области обработки данных с точки зрения дополнительной роли, а не прямой замены. Поэтому они могут создавать модели с помощью современной диагностической и прогнозной аналитики. И эта гибкость частично связана с внедрением открытой новой технологии, такой как «автоматизированное машинное обучение» (AutoML), которая теперь автоматизирует многие задачи, которые когда-то выполняли специалисты по данным.

Алгоритмы и автоматизация

Согласно недавней статье в Harvard Business Review: «Организации продвинулись к этой способности прогнозирования, объединив большие данные со сложным автоматизированным машинным обучением. AutoML, который использует машинное обучение для улучшения машинного обучения, позиционируется как «демократизация машинного обучения», позволяя компаниям с ограниченными знаниями в области обработки данных разрабатывать аналитические конвейеры, способные решать сложные бизнес-задачи.

С набором алгоритмов, которые автоматически пишут другие алгоритмы машинного обучения, AutoML автоматизирует сквозную фазу применения машинного обучения к реальным проблемам. Например, типичный конвейер ML состоит из: предварительной обработки данных, извлечения признаков, выбора признаков, выбора признаков, выбора алгоритмов и настройки гиперпараметров. Но значительный опыт и время, необходимые для принятия этих мер, означают, что входной барьер надежен.

AutoML устраняет некоторые из этих ограничений. Это не только значительно сокращает время, которое обычно требуется для разработки процесса машинного обучения под наблюдением человека, но также может повысить точность модели по сравнению с созданными людьми моделями, обученными и реализованными людьми. При этом он предоставляет компаниям путь к ML, а также высвобождает ресурсы инженеров ML и специалистов по обработке данных, позволяя им сосредоточиться на проблемах более высокого порядка.

Преодоление масштабируемости

Движение к объединению ML и больших данных для расширенной аналитики данных началось еще в 2012 году, когда глубокое обучение стало доминирующим подходом к решению задач ML. Этот подход ознаменовал разработку множества новых инструментов, инструментов и методов, которые в больших масштабах изменили как рабочую нагрузку, так и рабочий процесс, связанный с ML. Были разработаны совершенно новые наборы инструментов машинного обучения, такие как TensorFlow и PyTorch, и люди все чаще стали использовать графические процессоры (GPU) для ускорения своей работы.

До этого момента усилиям компаний мешали проблемы масштабируемости, связанные с запуском алгоритмов машинного обучения на больших наборах данных. Но теперь им удалось решить эти проблемы. Быстро разрабатывая сложные внутренние технологии, способные создавать приложения искусственного интеллекта мирового уровня, гиганты BigTech быстро превзошли своих коллег из списка Fortune 500, когда пришло понимание преимуществ более разумного принятия решений и программного обеспечения на основе данных.

Проницательность и инновации

AutoML представляет собой следующий шаг в эволюции машинного обучения, обещая помочь нетехническим предприятиям получить навыки, необходимые им для быстрой и дешевой разработки приложений машинного обучения.

Например, в 2018 году Google запустил Cloud AutoML. Основываясь на поиске нейронной архитектуры (NAS) и трансферном обучении, руководители Google описали его как потенциал, который «сделает экспертов по ИИ еще более конкурентоспособными, продвинет новые области ИИ и поможет менее квалифицированным инженерам разрабатывать мощные системы ИИ, о которых они раньше только мечтали. ».

Единственным недостатком AutoML в Google является то, что это проприетарный алгоритм. Однако существует ряд альтернативных библиотек AutoML с открытым исходным кодом, таких как AutoKeras, созданных исследователями Техасского университета и используемых для управления алгоритмом NAS.

Подобные технологические прорывы предоставили компаниям возможность быстро создавать готовые к производству модели без необходимости в дорогостоящем человеческом капитале. Используя возможности искусственного интеллекта, машинного обучения и глубокого обучения, AutoML предлагает организациям во всех отраслях возможность извлекать выгоду из приложений, управляемых данными, управляемых даже математическими моделями. Тем не менее, специализированных знаний в области науки о данных мало.

Поскольку компании все больше полагаются на гражданских специалистов по данным, 2020 год, вероятно, станет годом, когда AutoML станет массовым. Этот легкий доступ подтолкнет бизнес-лидеров к тому, чтобы в конечном итоге открыть «черный ящик» машинного обучения, тем самым повысив их осведомленность о его процессах и возможностях. Методы и практика искусственного интеллекта и машинного обучения прочно войдут в повседневную жизнь и деятельность компаний, поскольку они будут более заинтересованы в признании тех проектов, чей проницательный опыт будет способствовать более эффективному принятию решений и инновациям.

Путь машинного обучения

К 2019 году машинное обучение (ML) перешло из разрекламированного состояния во многие практические варианты использования, особенно в сфере B2B, что привело к повышению доверия и уверенности потребителей. Сегодня машинное обучение является одной из самых востребованных инноваций как в вертикальной, так и в горизонтальной отраслях. Этот переход был в основном связан с растущей доступностью обширных коллекций открытых данных, множества готовых к использованию алгоритмов и программ с открытым исходным кодом, которые были в свободном доступе. AI (искусственный интеллект) и ML становятся неотъемлемой частью процесса цифровой трансформации любой организации.

Обычный процесс создания решения для машинного обучения представляет собой ресурсоемкий итеративный процесс, который требует значительных знаний в предметной области и большого количества времени для создания и сравнения десятков моделей. Нехватка квалифицированных специалистов по данным и обучающих выборок привела к многочисленным неудачным долгосрочным проектам ML и отсутствию адекватной рентабельности инвестиций в индустрии ML.

Традиционное ML автоматизирует бизнес-процесс от клиента. Тем не менее, сам процесс проектирования таких ML-моделей требует масштабной автоматизации в связи с появлением подключенных устройств, IoT, Big Data и других новых технологий. Эта автоматизированная разработка моделей машинного обучения может быть выполнена с помощью AutoML (автоматического машинного обучения), который помогает специалистам по данным обобщать и автоматизировать некоторые из наиболее сложных задач, таких как разработка функций, настройка гиперпараметров и другие практические задачи машинного обучения.

Будет ли машинное обучение автоматизировано?

AutoML позволяет разработчикам с минимальным опытом машинного обучения обучать бизнес-модели высокого качества, не требуя от них прохождения сложного обычного рабочего процесса ML.

Ожидается, что эта технология создаст новый класс «гражданских специалистов по данным», которые знакомы с Excel и имеют какую-либо связь с данными, но не обязательно должны быть специалистами по данным, которые передают возможности передового машинного обучения непосредственно в руки бизнес-пользователей. С приложением AutoML разработчикам по всему миру не нужно снова и снова проектировать новые нейронные сети для своих конкретных нужд, они могут легко использовать существующие продукты AutoML, внося только необходимые изменения.

AutoML предоставляет ряд поощрений для маркетологов, позволяя более глубоко лично взаимодействовать с клиентами. Если компании необходимо расширить возможности специалистов по обработке и анализу данных/бизнес-пользователей или повысить эффективность, решения AutoML все чаще становятся обязательными для любого предприятия, которое хочет максимально эффективно использовать машинное обучение.

За последние несколько лет возрос интерес к программному обеспечению AutoML. Текущий рынок AutoML невелик и все еще находится на ранней стадии, но имеет потенциал для очень быстрого расширения. Во многих случаях AutoML в настоящее время не превосходит созданные вручную модели с точки зрения точности. Тем не менее, есть доказательства того, что AutoML может достичь эффективности самой эффективной модели на целых 95 процентов.

По словам Forrester, у любого бизнеса, который работает с AI / ML, скоро будет автономный инструмент AutoML. Gartner также прогнозирует, что к 2020 году более 40% операций по обработке данных будут автоматизированы.

В последние годы было создано несколько готовых пакетов для обеспечения автоматизированного машинного обучения. Многие коммерческие организации, в том числе Auto-sklearn, Auto-Weka, Prodigy, беспилотный искусственный интеллект H2O.ai и т. д., также пытались автоматизировать машинное обучение. В настоящее время стартапы на рынке AutoML, такие как DataRobot, dotDATA, Edgeverve и т. д., стремятся повысить осведомленность рынка о продуктах AutoML и ориентируются на гражданских специалистов по данным.

В облаке также доступно несколько решений AutoML, наиболее распространенным из которых является AWS Sagemaker. Ожидается, что Google Cloud AutoML и служба машинного обучения Microsoft Azure в ближайшие месяцы увидят множество практических вариантов использования по мере роста облачных технологий.

В настоящее время не существует универсально оптимального решения AutoML, а доступные в настоящее время фреймворки Automated Machine Learning (AutoML) все еще далеки от решения многих реальных проблем науки о данных, где проекты многогранны и требуют сложных и субъективных задач, которые не допускайте простой автоматизации. Еще одна большая проблема, с которой сталкивается AutoML, заключается в том, что ни один подход к машинному обучению не работает лучше всего для всех наборов данных, поэтому на данный момент специалистам по данным необходимо экспериментировать с различными методами. Также отсутствует ясность в отношении того, почему модель принимает то или иное решение, как модель выбирается и т. д.

Тем не менее, приложения AutoML будут расти как инструменты, автоматизирующие большую часть рабочего процесса обработки данных в ближайшие три-пять лет, и могут предоставляться как AutoML как решение. С введением AutoML роль науки о данных будет все больше и больше зависеть от бизнес-науки. Предприятия только начали экспериментировать с AutoML и планируют применить его к некоторым из своих некритических задач и сосредоточиться на уровне точности систем AutoML.

Подобно облачному рынку, в будущем может появиться рынок автоматизированного машинного обучения (AutoML), где пользователи машинного обучения смогут просто подключать алгоритмы и запускать модели на основе имеющихся у них данных. Когда отрасль движется к поиску лучших решений для AutoML, ожидается, что специалисты-практики и специалисты по данным предоставят информацию о правильных методах, чтобы проложить путь к надежному AutoML 2.0, где AutoML можно использовать в качестве вспомогательного инструмента, который снижает зависимость от высоко квалифицированные специалисты по данным.