Наблюдая стремительный рост спроса в области науки о данных практически во всех отраслях и областях научных исследований, легко предвидеть усилия по созданию ярлыков, чтобы удовлетворить потребность в большем количестве практиков в области науки о данных. Современная тенденция автоматизированного машинного обучения - отличный тому пример. В этой статье будет затронут ряд попыток избежать необходимости для специалистов по обработке данных выбирать и обучать модели машинного обучения и определять показатели для измерения их производительности.

Поиск автоматизированных подходов в информатике не нов. Я могу вспомнить еще 80-е годы, когда рождение персональных компьютеров вызвало резкий скачок в спросе программистов на разработку программного обеспечения для небольших машин. Было много попыток «автоматизированного программирования» и «генераторов кода», призванных продвигать идею разработки программного обеспечения по принципу «укажи и щелкни». Он так и не стал успешным, потому что цели были нереалистичными - заменить людей-программистов. Нечто подобное сегодня происходит с «автоматизированным машинным обучением».

Стоит ли беспокоиться специалистам по данным? Недавнее исследование Pew Research Center показало, что процент взрослого населения США, считающего, что определенные профессии будут заменены роботами или компьютерами в течение их жизни, показал, что 53% разработчиков программного обеспечения считают, что их рабочие места будут заменены «в некоторой или очень высокой степени». [1] Это означает, что большинство разработчиков программного обеспечения считают, что автоматизированные средства лишат их профессии. Это довольно удивительно, если подумать. Я не верю, что существует достаточно доказательств, подтверждающих эту точку зрения. Я надеюсь увидеть еще одно исследование только для специалистов по данным. Тем не менее, давайте рассмотрим ландшафт этого интересного сегмента технологий.

Платформы автоматизированного машинного обучения

Существует ряд новых подходов к автоматизированным платформам машинного обучения, и мы видим, что они широко упоминаются в отраслевом новостном цикле. Например, Cloud AutoML от Google - это набор продуктов машинного обучения, который позволяет разработчикам с ограниченным опытом машинного обучения обучать модели, соответствующие их бизнес-потребностям, с помощью новых технологий Google: AutoML Vision, AutoML Natural Language и AutoML Translation. AutoML является результатом 10-летних усилий Google Research и предоставляет простой графический пользовательский интерфейс (GUI), позволяющий пользователям обучать, оценивать, улучшать и развертывать модели на основе их собственных данных.

Также существует Auto-Keras, описанный в статье Эффективный поиск нейронной архитектуры с морфизмом сети Хайфэна Цзинь, Цинцюань Сун и Ся Ху. Auto-Keras - это библиотека программного обеспечения с открытым исходным кодом для автоматизированного машинного обучения. Он разработан DATA Lab Техасского университета A&M в дополнение к участникам сообщества. Конечная цель автоматизированного машинного обучения - предоставить легкодоступные инструменты глубокого обучения экспертам в предметной области с ограниченным опытом в области науки о данных или машинного обучения. Ключевым элементом Auto-Keras является то, что он предоставляет функции для автоматического поиска архитектуры и гиперпараметров моделей глубокого обучения.

У H2O.ai также есть собственная платформа AutoML. Благодаря H2O неспециалистам стало проще экспериментировать с машинным обучением. Хотя эти инструменты упростили обучение и оценку моделей машинного обучения, для создания высокопроизводительных моделей машинного обучения по-прежнему необходим достаточный объем знаний и опыта в области науки о данных.

Демократизация науки о данных

Команда исследователей Массачусетского технологического института работает над продвижением того, что они называют демократизацией науки о данных, с помощью нового инструмента для нестатистиков, который автоматически генерирует модели для анализа необработанных данных. Рекламируется как инструмент, требующий от пользователей написать всего несколько строк кода, чтобы раскрыть понимание различных проблемных областей, таких как финансовые тенденции, авиаперелеты, модели голосования, распространение болезней и т. Д.

Один из исследователей, доктор философских наук Ферас Саад. студент факультета электротехники и информатики (EECS) выступил с докладом Байесовский синтез вероятностных программ для автоматического моделирования данных, в котором представил новые методы автоматического построения вероятностных программ для анализа, интерпретации и прогнозирования данных. Саад признал, что люди хранят множество наборов данных в различных хранилищах данных, и его цель - создать системы, которые позволят людям автоматически получать модели, которые они могут использовать, чтобы задавать вопросы об этих данных. Соответствующий документ Байесовский синтез вероятностных программ для автоматического моделирования данных, представленный на симпозиуме ACM SIGPLAN по принципам языков программирования, показывает, как этот инструмент может точно извлекать закономерности и делать прогнозы из реальных наборов данных и даже превосходят модели, построенные вручную, в определенных задачах анализа данных.

Запуск AutoML

Есть также ряд стартапов, которые работают над тем, чтобы расширить границы автоматизированного машинного обучения с разных точек зрения:

Бина

Решение Binah Automatic Data Science Engine включает обработку сигналов, то, что они называют своим «секретным соусом», который компания считает важным компонентом для предварительной обработки данных, и ускорение математического моделирования. Затем данные комбинируются с запатентованными алгоритмами, машинным и глубоким обучением, а также искусственным интеллектом. Решение для расширенной аналитики данных включает сложные математические алгоритмы для обработки данных, моделирования, обучения и тестирования.

DataRobot

DataRobot объединяет знания, опыт и передовые методы ведущих специалистов по обработке данных и обеспечивает высокий уровень автоматизации и простоту использования для инициатив по машинному обучению. DataRobot позволяет пользователям создавать и развертывать высокоточные модели машинного обучения за гораздо меньшее время, чем при использовании традиционных методов науки о данных.

Способность по-настоящему демократизировать процесс - это, пожалуй, самый важный элемент любой корпоративной платформы машинного обучения. DataRobot автоматизирует весь жизненный цикл моделирования, позволяя пользователям быстро и легко создавать прогнозные модели. Компания сообщает, что навыки программирования и машинного обучения совершенно необязательны.

BigML

BigML продвигает понятие «машинное обучение для всех», предоставляя облачное решение «Машинное обучение как услуга» (MLaaS). BigML - это платформа машинного обучения, которая позволяет разработчикам создавать прогностические приложения корпоративного уровня. В некотором смысле это похоже на Tableau для машинного обучения в том, что он прост в использовании, визуально привлекателен и понятен, так что даже те, у кого нет глубоких знаний в области науки о данных, могут создавать и развертывать модели.

"Пропущенная ссылка"

MissingLink предлагает другой подход к автоматизированному машинному обучению, помогая специалистам по обработке данных оптимизировать и автоматизировать весь жизненный цикл глубокого обучения. Платформа позволяет тренировать вашу модель чаще, с меньшими затратами и с большей уверенностью. Совместимость с популярными фреймворками: Tensorfow, Keras, PyTorch, MissingLink позволяет легко управлять экспериментом, данными и ресурсами в одном месте. На панели управления можно увидеть гиперпараметры эксперимента, код, данные, журналы, артефакты и многое другое. Эксперимент легко сравнить или воспроизвести. Платформа также может автоматически определять оптимальные гиперпараметры. Масштабируйте по мере роста и оптимизируйте свои ресурсы для достижения наилучшего результата и возврата инвестиций.

Заключение

В последние несколько лет спрос на специалистов по обработке данных, обладающих опытом машинного обучения, превысил предложение этого набора навыков, несмотря на рост числа людей, начинающих работать в этой области. Чтобы устранить этот пробел, были достигнуты значительные успехи в разработке удобного программного обеспечения для машинного обучения, которое могут использовать неспециалисты. Только время покажет, насколько успешными будут эти усилия. Я, как специалист по данным, надеюсь, что они не «слишком успешны», так как я действительно люблю свою работу!

[1] LA Times, воскресенье, 14 октября 2018 г. «Рост машин: роботы меняют рынок труда»

— — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.