Разнообразные приложения машинного обучения в больших данных

Машинное обучение и как его использовать в облаке Alibaba

Машинное обучение — важный способ создания ценности для клиентов. В этой статье обсуждается, что такое машинное обучение и как его можно использовать в облаке Alibaba.

Мы живем в эпоху больших данных, когда существует множество данных, и компании из разных отраслей придумывают новые и уникальные способы использования этих данных для создания ценности для своих клиентов. Для всего этого машинное обучение является важной частью головоломки.

Что такое машинное обучение?

Машинное обучение (сокращенно ML) можно описать как механизм, с помощью которого машина изучает шаблон из наборов данных, чтобы она могла предсказывать будущие данные. Основными типами алгоритмов машинного обучения являются обучение с учителем, полууправление, обучение без учителя и обучение с подкреплением. В конвейере машинного обучения используются обучающие данные, какая-то модель для этих данных и алгоритм. После первоначального обучения к модели применяется тестовый набор данных, чтобы проверить точность прогнозов, сделанных этим конвейером.

Конвейеры машинного обучения обычно состоят из следующих шагов:

Источник данных
Предварительная обработка данных
Разработка функций
Обучение и предсказание
Оценка

Машинное обучение в широком смысле можно рассматривать как подтип искусственного интеллекта (ИИ) и более широкую зонтичную категорию, в которой вы найдете другие типы алгоритмов, такие как алгоритмы глубокого обучения.

Вычислительная мощность машины, на которой развернуты эти типы алгоритмов, также играет большую роль в том, насколько мощным может быть алгоритм. В облаке все эти алгоритмы являются инструментальными частями многих предоставляемых услуг и зависят от вычислительной мощности, предоставляемой серверами в облаке.

Для чего можно использовать машинное обучение?

Одним из распространенных приложений машинного обучения в последние годы являются рекомендательные системы. Эти системы используют вводимые пользователем данные для предоставления пользовательских рекомендаций. Примером таких систем является система, используемая Netflix.

Netflix использует современную систему рекомендаций, которая может предоставить точные рекомендации. Используемый алгоритм принимает такие входные данные, как история просмотров пользователя, пользовательские рейтинги, данные других пользователей со схожими вкусами и время суток, когда пользователь просматривал контент.

Эта система рекомендаций важна, поскольку около двух третей фильмов, просматриваемых на Netflix, являются рекомендованными. В других подобных сервисах, предоставляемых Amazon и Google, история очень похожа. Для Amazon 35 процентов продаж на их платформе электронной коммерции приходятся на рекомендации, а в Google рекомендации новостей повысили рейтинг кликов на 38 процентов.

Как машинное обучение работает в облаке Alibaba?
В этом разделе вы найдете пошаговое руководство по использованию машинного обучения в облаке Alibaba. В этом руководстве вы создадите базовый конвейер машинного обучения для создания алгоритма бинарной классификации.

Во-первых, получить данные. Для этого найдите источник данных, с которым хотите работать. Вы уже можете найти некоторые наборы данных в консоли. В этом примере используются данные о раке молочной железы.

Связанные блоги

Различия между ИИ, машинным обучением и глубоким обучением

Несмотря на концептуальное сходство, термины ИИ, машинное обучение и глубокое обучение не являются взаимозаменяемыми.

Введение

9 ноября 2015 года Google выпустила систему искусственного интеллекта (ИИ) с открытым исходным кодом, известную как TensorFlow. С момента запуска TensorFlow рост ИИ и машинного обучения был огромным. Машинное обучение, как тип ИИ, позволяет программному обеспечению разрабатывать или прогнозировать будущие события на основе большого объема данных. Сегодня все ведущие технологические гиганты вкладывают значительные средства в машинное обучение, включая Facebook, Apple, Microsoft и даже ведущую поисковую систему Китая — Baidu.

В 2016 году проект Google DeepMind AlphaGo победил южнокорейского игрока Ли Се Дола во всемирно известной игре Го. Средства массовой информации использовали термины ИИ, машинное обучение и глубокое обучение для объяснения причин победы DeepMind, что вызвало массовое замешательство этих терминов среди общественности.

Различия и сходства

Несмотря на концептуальное сходство, термины ИИ, машинное обучение и глубокое обучение не являются взаимозаменяемыми. Ссылаясь на интерпретации Майкла Коупленда из NVIDIA, эта статья раскрывает концепции искусственного интеллекта, машинного обучения и глубокого обучения. Чтобы понять взаимосвязь между тремя, давайте посмотрим на рисунок ниже:

Как показано на рисунке, машинное обучение и глубокое обучение относятся к подкатегориям ИИ. Концепция ИИ появилась в 50-х годах, тогда как машинное обучение и глубокое обучение — относительно новые темы.

ИИ: от неактуальности к глобальному принятию

С 1956 года, когда ученые-компьютерщики придумали термин ИИ на Дартмутской конференции, существует бесконечный поток творческих идей об ИИ. ИИ был одной из самых горячих тем или исследований, потому что многие воспринимали ИИ как ключ к светлому будущему человеческой цивилизации. Однако идея искусственного интеллекта была быстро отвергнута как слишком претенциозная и причудливая.

В последние несколько лет, особенно после 2015 года, ИИ пережил новый всплеск. Большой вклад в этот рост вносит широкое использование графических процессоров (GPU), которые делают параллельную обработку более быстрой, экономичной и мощной. Кроме того, появление почти бесконечных пространств для хранения и массивных данных (перемещение больших данных) также способствовало развитию ИИ. Эти технологии обеспечивают неограниченный доступ ко всем видам файлов, включая изображения, текст, данные транзакций и картографические данные.

Далее мы рассмотрим ИИ, машинное обучение и глубокое обучение один за другим в их процессах разработки.

6 лучших фреймворков AutoML для приложений машинного обучения (май 2019 г.)

В этом посте мы рассмотрим 6 ключевых платформ автоматизированного машинного обучения (AutoML), которые могут помочь специалистам по данным ускорить разработку машинного обучения.

1. Что такое AutoML?

1.1 Обзор

AutoML (автоматическое машинное обучение) относится к автоматизированному сквозному процессу применения машинного обучения в реальных и практических сценариях.

Типичная модель машинного обучения включает четыре следующих шага:

От чтения данных до предварительной обработки, оптимизации и прогнозирования результатов каждый шаг контролируется и выполняется вручную. AutoML фокусируется на двух основных аспектах: сборе данных и прогнозировании. Любые другие промежуточные этапы могут быть легко автоматизированы. Кроме того, AutoML предоставляет модели, оптимизированные и готовые к прогнозированию.

В настоящее время AutoML в основном делится на три категории: 1. AutoML для автоматической настройки параметров (относительно базовый тип) 2. AutoML для неглубокого обучения, например AutoSKlearn. Этот тип в основном применяется при предварительной обработке данных, автоматическом анализе признаков, автоматическом обнаружении признаков, автоматическом выборе признаков и автоматическом выборе модели. 3. AutoML для глубокого обучения/нейронных сетей, включая NAS и ENAS, а также Auto-Keras для фреймворков.

1.2 Зачем нужен AutoML?

С точки зрения приложений спрос на системы машинного обучения резко вырос за последние несколько лет. ML был принят в широком диапазоне приложений. Однако, хотя доказано, что машинное обучение может обеспечить лучшую поддержку для некоторых предприятий, многие предприятия все еще пытаются внедрить развертывание модели машинного обучения.

Теоретически одной из целей ИИ является замена части рабочей силы. В частности, большая часть работы по проектированию ИИ также может быть реализована с использованием соответствующих алгоритмов. Возьмем, к примеру, настройку параметров: в процессе настройки параметров можно использовать такие алгоритмы, как Байес, NAS и эволюционное программирование, чтобы заменить рабочую силу за счет увеличения вычислительной мощности.

Для развертывания моделей ИИ предприятию в первую очередь необходимо иметь команду опытных специалистов по данным, которые ожидают высоких зарплат. Даже если у предприятия есть отличная команда, обычно требуется больше опыта, чем знания ИИ, чтобы решить, какая модель лучше всего подходит предприятию. Успех машинного обучения в различных приложениях приводит к все более высокому спросу на системы машинного обучения, которые должны быть просты в использовании даже для неспециалистов. AutoML стремится автоматизировать как можно больше шагов в конвейерах машинного обучения и сохранить хорошую производительность модели с минимальными трудозатратами.

Поиск общедоступных данных для ваших конвейеров машинного обучения

В этой статье обсуждается, как и где можно найти общедоступные данные для использования в конвейерах машинного обучения, которые затем можно использовать в различных приложениях.

Цель статьи — помочь вам найти набор данных из общедоступных данных, который вы можете использовать для конвейера машинного обучения, будь то демонстрация машинного обучения, проверка концепции или исследовательский проект. Не всегда возможно собрать собственные данные, но, используя общедоступные данные, вы можете создавать конвейеры машинного обучения, которые могут быть полезны для большого количества приложений.

Машинному обучению нужны данные

Машинному обучению нужны данные. Без данных вы не можете быть уверены, что модель машинного обучения работает. Однако необходимые данные не всегда могут быть легко доступны.

Данные могут быть еще не собраны или не помечены или могут быть недоступны для разработки модели машинного обучения из-за технологических, бюджетных проблем, проблем с конфиденциальностью или безопасностью. Особенно в контексте бизнеса заинтересованные стороны хотят увидеть, как будет работать система машинного обучения, прежде чем вкладывать время и деньги в сбор, маркировку и перемещение данных в такую систему. Это делает необходимым поиск замещающих данных.

В этой статье мы хотим пролить свет на то, как находить и использовать общедоступные данные для различных приложений машинного обучения, таких как демонстрации машинного обучения, проверки концепции или исследовательские проекты. В этой статье особое внимание уделяется тому, где вы можете найти данные практически для любого варианта использования, проблемам с синтетическими данными и потенциальным проблемам с использованием общедоступных данных. В этой статье термин «общедоступные данные» относится к любым данным, открыто размещенным в Интернете и доступным для использования любым лицом, которое соблюдает условия лицензирования данных./ Это определение выходит за рамки типичного объема «открытых данных». , который обычно относится только к опубликованным правительством данным.

Будьте осторожны, когда дело доходит до синтетических данных

Одним из решений этих потребностей в данных является создание синтетических данных или поддельных данных, если использовать термины непрофессионала. Иногда это безопасно. Но синтетические данные обычно не подходят для случаев использования машинного обучения, потому что большинство наборов данных слишком сложны, чтобы их можно было правильно подделать. Более того, использование синтетических данных также может привести к неправильному пониманию на этапе разработки того, как ваша модель машинного обучения будет работать с предполагаемыми данными по мере продвижения вперед.

В профессиональном контексте использование синтетических данных особенно рискованно. Если модель, обученная на синтетических данных, имеет худшую производительность, чем модель, обученная на предполагаемых данных, заинтересованные стороны могут отклонить вашу работу, даже если в действительности модель удовлетворила бы их потребности. Если модель, обученная на синтетических данных, работает лучше, чем модель, обученная на предполагаемых данных, вы создаете нереалистичные ожидания. Как правило, вы редко знаете, как изменится производительность вашей модели при обучении с другим набором данных, пока вы не обучите ее с этим набором данных.

Таким образом, использование синтетических данных создает бремя для сообщения о том, что любые обсуждения производительности модели являются чисто спекулятивными. Производительность модели на замещающих данных, конечно, также является спекулятивной, но модель, обученная на хорошо выбранном замещающем наборе данных, будет давать производительность, более близкую к фактической модели, обученной на предполагаемых данных, чем модель, обученная на синтетических данных.

Если вы чувствуете, что понимаете предполагаемые данные достаточно хорошо, чтобы создать по существу идеальный синтетический набор данных, тогда бессмысленно использовать машинное обучение, поскольку вы уже можете предсказать контуры. То есть данные, которые вы используете для обучения, должны быть случайными и использоваться для того, чтобы увидеть, каковы возможные результаты этих данных, а не для подтверждения того, что вы уже четко знаете.

Анализ данных переписи с использованием платформы машинного обучения Alibaba Cloud

В этой статье показано, как настроить платформу машинного обучения с помощью Alibaba Cloud Machine Learning Platform for AI для анализа данных переписи населения.

Перепись — это официальное обследование населения, в ходе которого регистрируются сведения о лицах в различных аспектах. С помощью данных переписи мы можем измерить корреляцию некоторых характеристик населения, таких как влияние образования на уровень доходов. Эта оценка может быть сделана на основе других атрибутов, таких как возраст, географическое положение и пол. В этой статье мы покажем вам, как настроить платформу облачного машинного обучения Alibaba для продукта ИИ для проведения аналогичного эксперимента с использованием данных переписи населения.

Введение в набор данных
Источник данных: набор данных с открытым исходным кодом UCI Adult — это результат переписи для определенного региона в Соединенных Штатах, всего 32 561 экземпляр. Подробные поля выглядят следующим образом:

Связанные курсы

Карьера обучения машинному обучению

Путь карьеры в области машинного обучения знакомит пользователей со сквозными услугами машинного обучения, включая обработку данных, разработку функций, обучение моделей, прогнозирование моделей и оценку моделей. Платформа машинного обучения Alibaba Cloud объединяет все эти сервисы, чтобы сделать ИИ более доступным, чем когда-либо. Узнайте, как использовать эту платформу, пройдя этот путь обучения.

Машинное обучение для начинающих — линейная регрессия

Этот курс является первым классом из серии «Алгоритм облачного машинного обучения Alibaba QuickStart». модель прогнозирования в PAI, подготовьтесь к знаниям, связанным с последующими курсами машинного обучения.

Повышение аналитики больших данных с помощью данных устройств IoT

Интернет вещей (IoT) и большие данные тесно связаны друг с другом и оказывают значительное влияние на многие вертикальные отрасли, открывая новые возможности для инноваций и оптимизации процессов.

Как запустить машинное обучение в облаке — линейная регрессия

Сопутствующие товары на рынке

Алгоритм машинного обучения Primer 2-Наивный байесовский классификатор

Как использовать передовую платформу машинного обучения Alibaba Cloud для искусственного интеллекта (PAI) для быстрого применения модели линейной регрессии в машинном обучении для правильного решения задач прогнозирования, связанных с бизнесом.

Машинное обучение: прогнозирование сердечно-сосудистых заболеваний

На этом занятии рассказывается, как использовать облачную платформу машинного обучения Alibaba для искусственного интеллекта для создания модели прогнозирования сердечных заболеваний на основе данных, собранных у пациентов с сердечными заболеваниями.

Алгоритм машинного обучения 4-дерево решений и случайный лес

Как применить дерево решений и модель случайного леса для решения задач классификации с помощью PAI.

Связанная документация

Что такое платформа машинного обучения для ИИ?

Обзор продукта

Машинное обучение относится к практике инструктирования машин для обнаружения регулярных закономерностей из накопленных данных, чтобы помочь пользователям делать прогнозы и принимать решения.

Платформа облачного машинного обучения Alibaba для ИИ предоставляет комплексную услугу машинного обучения с низкими требованиями к техническим навыкам пользователя, но с высокой производительностью. На платформе машинного обучения для ИИ вы можете быстро создавать и развертывать эксперименты по машинному обучению, чтобы добиться полной интеграции между алгоритмами и вашим бизнесом. Платформа машинного обучения для ИИ построена на основе полноценной системы приложений алгоритмов Alibaba Group и в настоящее время обслуживает десятки тысяч разработчиков и корпоративных пользователей. Вы можете быстро создавать такие сервисы, как рекомендации по продуктам, контроль финансовых рисков, идентификация изображений и распознавание голоса, на основе платформы машинного обучения для искусственного интеллекта для реализации искусственного интеллекта.

Успешный кейс — Sina Weibo

Sina Weibo — ведущая социальная сеть в Китае. У Sina Weibo 165 миллионов активных пользователей в день (DAU) и 376 миллионов активных пользователей в месяц (MAU). Мобильные MAU занимают до 92% всех MAU. Задействованные сценарии операций с данными включают, но не ограничиваются:

Проблемы

Пользователи ежедневно генерируют огромное количество данных на платформе. После обработки данных могут быть сгенерированы десятки миллиардов признаков и сотни миллиардов выборочных записей. Как вычислить и проанализировать такой огромный объем данных, представляет собой серьезную проблему для вычислительной машины нижнего уровня.

Машинное обучение — Платформа машинного обучения для ИИ

Линейный метод опорных векторов

Метод опорных векторов (SVM), разработанный в середине 90-х годов, представляет собой метод машинного обучения, основанный на теории статистического обучения. Он направлен на улучшение способности обучающейся машины к обобщению за счет минимизации структурного риска, чтобы минимизировать эмпирический риск и доверительный диапазон. Таким образом, хорошие статистические данные могут быть получены при небольших размерах выборки. Дополнительные сведения о SVM см. в вики.

Этот линейный SVM не реализован с использованием функции ядра. Подробнее о реализации см. в разделе 6 Метод доверенной области для L2-SVM в http://www.csie.ntu.edu.tw/~cjlin/papers/logistic.pdf. Этот алгоритм поддерживает только модели бинарной классификации.

сопутствующие товары

Платформа машинного обучения для ИИ

Платформа машинного обучения для ИИ предоставляет комплексные услуги машинного обучения, включая обработку данных, разработку функций, обучение моделей, прогнозирование моделей и оценку моделей. Платформа машинного обучения для ИИ объединяет все эти сервисы, чтобы сделать ИИ более доступным, чем когда-либо.

Поиск изображения

Alibaba Cloud Image Search — это интеллектуальный сервис поиска изображений, который помогает пользователям находить похожие или идентичные изображения. Основанный на машинном обучении и глубоком обучении, продукт позволяет конечным пользователям делать снимки экрана или загружать изображения для поиска и поиска нужных продуктов и выполнения других поисковых запросов.

Оригинальный источник:

Разнообразные приложения машинного обучения в больших данных
Alibaba Clouder 17 июня 2020 г. 227 Машинное обучение — важный способ создания ценности для клиентов. Это…www.alibabacloud.com