Что такое машинное обучение?

Машинное обучение — это система, которая может учиться на примере путем самосовершенствования и без явного кодирования программистом. Прорыв связан с идеей, что машина может самостоятельно учиться на данных (то есть на примере) для получения точных результатов.

Машинное обучение объединяет данные со статистическими инструментами для прогнозирования результата. Эти выходные данные затем используются корпорацией для принятия практических решений. Машинное обучение тесно связано с интеллектуальным анализом данных и байесовским прогнозным моделированием. Машина получает данные на вход, использует алгоритм для формулирования ответов.

Типичные задачи машинного обучения — дать рекомендацию. Для тех, у кого есть учетная запись Netflix, все рекомендации фильмов или сериалов основаны на исторических данных пользователя. Технологические компании используют неконтролируемое обучение для улучшения взаимодействия с пользователем с помощью персонализированных рекомендаций.

Машинное обучение также используется для решения различных задач, таких как обнаружение мошенничества, профилактическое обслуживание, оптимизация портфеля, автоматизация задач и т. д.

В этом базовом руководстве вы узнаете:

  • Что такое машинное обучение?
  • Машинное обучение против традиционного программирования
  • Как работает машинное обучение?
  • Алгоритмы машинного обучения и где они используются?
  • Как выбрать алгоритм машинного обучения
  • Проблемы и ограничения машинного обучения
  • Применение машинного обучения
  • Почему машинное обучение важно?

Машинное обучение против традиционного программирования

Традиционное программирование существенно отличается от машинного обучения. В традиционном программировании программист кодирует все правила, консультируясь с экспертом в отрасли, для которой разрабатывается программное обеспечение. Каждое правило основано на логической основе; машина выполнит вывод после логического оператора. Когда система становится сложной, необходимо писать больше правил. Это может быстро стать неустойчивым поддерживать.

Предполагается, что машинное обучение решит эту проблему. Машина узнает, как соотносятся входные и выходные данные, и записывает правило. Программистам не нужно писать новые правила каждый раз, когда появляются новые данные. Алгоритмы адаптируются в ответ на новые данные и опыт, чтобы со временем повысить эффективность.

Как работает машинное обучение?

Машинное обучение — это мозг, в котором происходит все обучение. Способ обучения машины подобен человеческому. Люди учатся на опыте. Чем больше мы знаем, тем легче мы можем предсказать. По аналогии, когда мы сталкиваемся с неизвестной ситуацией, вероятность успеха ниже, чем в известной ситуации. Машины обучаются одинаково. Чтобы сделать точный прогноз, машина видит пример. Когда мы даем машине аналогичный пример, она может вычислить результат. Однако, как и у человека, если он скармливает ранее невиданный пример, машине трудно предсказать.

Основной целью машинного обучения является обучение и вывод. Прежде всего, машина учится, обнаруживая закономерности. Это открытие сделано благодаря данным. Одна из важнейших задач специалиста по обработке и анализу данных — тщательно выбирать, какие данные предоставлять машине. Список атрибутов, используемых для решения проблемы, называется вектором признаков. Вы можете думать о векторе признаков как о подмножестве данных, которое используется для решения проблемы.

Машина использует несколько причудливых алгоритмов, чтобы упростить реальность и преобразовать это открытие в модель. Поэтому этап обучения используется для описания данных и их обобщения в модели.

Например, машина пытается понять взаимосвязь между заработной платой человека и вероятностью посещения модного ресторана. Оказывается, машина находит положительную связь между заработной платой и посещением дорогого ресторана: это модель

вывод

Когда модель построена, можно проверить, насколько она эффективна, на невиданных ранее данных. Новые данные преобразуются в вектор признаков, проходят через модель и дают прогноз. Это все прекрасная часть машинного обучения. Нет необходимости обновлять правила или заново обучать модель. Вы можете использовать ранее обученную модель, чтобы делать выводы на основе новых данных.

Жизнь программ машинного обучения проста и может быть резюмирована в следующих пунктах:

  1. Определите вопрос
  2. Собирать данные
  3. Визуализируйте данные
  4. Алгоритм обучения
  5. Протестируйте алгоритм
  6. Собирайте отзывы
  7. Уточнить алгоритм
  8. Повторяйте 4–7, пока результаты не будут удовлетворительными.
  9. Используйте модель, чтобы сделать прогноз

Как только алгоритм научится делать правильные выводы, он применяет эти знания к новым наборам данных.

Алгоритмы машинного обучения и где они используются?

Машинное обучение можно разделить на две широкие задачи обучения: контролируемое и неконтролируемое. Есть много других алгоритмов.

контролируемое обучение

Алгоритм использует обучающие данные и обратную связь от людей, чтобы узнать взаимосвязь заданных входных данных с заданным выходным сигналом. Например, практикующий врач может использовать расходы на маркетинг и прогноз погоды в качестве исходных данных для прогнозирования продаж банок.

Вы можете использовать обучение с учителем, когда известны выходные данные. Алгоритм будет предсказывать новые данные.

Существует две категории контролируемого обучения:

  • Задача классификации
  • Задача регрессии

Классификация

Представьте, что вы хотите предсказать пол клиента для рекламы. Вы начнете собирать данные о росте, весе, работе, зарплате, корзине покупок и т. д. из своей базы данных клиентов. Вы знаете пол каждого вашего клиента, это может быть только мужчина или женщина. Цель классификатора будет состоять в том, чтобы назначить вероятность быть мужчиной или женщиной (т. е. метку) на основе информации (т. е. собранных вами признаков). Когда модель научилась распознавать мужчину или женщину, вы можете использовать новые данные для прогнозирования. Например, вы только что получили новую информацию от неизвестного клиента и хотите узнать, мужчина это или женщина. Если классификатор предсказывает мужчина = 70%, значит, алгоритм на 70% уверен, что этот клиент мужчина, а на 30% — женщина.

Этикетка может быть двух и более классов. В приведенном выше примере есть только два класса, но если классификатору нужно предсказать объект, он имеет десятки классов (например, стекло, стол, обувь и т. д. каждый объект представляет класс).

Регрессия

Когда выход представляет собой непрерывное значение, задача представляет собой регрессию. Например, финансовому аналитику может потребоваться спрогнозировать стоимость акций на основе ряда характеристик, таких как собственный капитал, предыдущие результаты акций, макроэкономический индекс. Система будет обучена оценивать стоимость акций с наименьшей возможной ошибкой.

Имя алгоритма Описание Тип

Линейная регрессия. Находит способ соотнести каждую функцию с выходными данными, чтобы помочь предсказать будущие значения. Тип - Регрессия

Логистическая регрессия —расширение линейной регрессии, которое используется для задач классификации. Выходная переменная 3 является двоичной (например, только черный или белый цвет), а не непрерывной (например, бесконечный список возможных цветов). Тип - Классификация

Дерево решений — интерпретируемая классификационная или регрессионная модель, которая разбивает значения характеристик данных на ветви в узлах принятия решений (например, если характеристика представляет собой цвет, каждый возможный цвет становится новой ветвью) до тех пор, пока не будет выведено окончательное решение. сделано.Тип-регрессионная классификация

Наивный байесовский метод.Байесовский метод — это метод классификации, использующий теорему Байеса. Теорема обновляет априорные знания о событии с помощью независимой вероятности каждого признака, который может повлиять на событие. Тип - классификация регрессии

Машина опорных векторов —Машина опорных векторов, или SVM, обычно используется для задачи классификации. Алгоритм SVM находит гиперплоскость, которая оптимально разделяет классы. Лучше всего использовать с нелинейным решателем. Типовая регрессия (не очень распространенная) Классификация

Случайный лес –алгоритм построен на дереве решений для значительного повышения точности. Случайный лес генерирует многократно простые деревья решений и использует метод «большинства голосов», чтобы решить, какую метку вернуть. Для задачи классификации окончательным прогнозом будет тот, набравший наибольшее количество голосов; в то время как для задачи регрессии средний прогноз всех деревьев является окончательным прогнозом. Тип - классификация регрессии.

AdaBoost – метод классификации или регрессии, который использует множество моделей для принятия решения, но взвешивает их на основе их точности в прогнозировании результата. Тип — регрессионная классификация

Деревья с усилением градиента. Деревья с усилением градиента — это современный метод классификации/регрессии. Он фокусируется на ошибке, допущенной предыдущими деревьями, и пытается ее исправить. Тип - классификация регрессии.

Неконтролируемое обучение

При неконтролируемом обучении алгоритм исследует входные данные без явной выходной переменной (например, исследует демографические данные клиентов для выявления закономерностей).

Вы можете использовать его, когда не знаете, как классифицировать данные, и хотите, чтобы алгоритм находил закономерности и классифицировал данные за вас.

Описание алгоритма

Тип

Кластеризация K-средних

Помещает данные в несколько групп (k), каждая из которых содержит данные со схожими характеристиками (как определено моделью, а не заранее людьми).

Кластеризация

Смешанная модель Гаусса

Обобщение кластеризации методом k-средних, обеспечивающее большую гибкость в отношении размера и формы групп (кластеры

Кластеризация

Иерархическая кластеризация

Разбивает кластеры по иерархическому дереву для формирования системы классификации.

Может использоваться для клиентов с картой лояльности Cluster.

Кластеризация

Система рекомендаций

Помогите определить релевантные данные для вынесения рекомендации.

Кластеризация

PCA/T-SNE

В основном используется для уменьшения размерности данных. Алгоритмы сокращают количество признаков до 3 или 4 векторов с наибольшей дисперсией.

Уменьшение размера

Как выбрать алгоритм машинного обучения

Существует множество алгоритмов машинного обучения. Выбор алгоритма зависит от цели.

В приведенном ниже примере задача состоит в том, чтобы предсказать тип цветка среди трех сортов. Прогнозы основаны на длине и ширине лепестка. На картинке изображены результаты десяти различных алгоритмов. Картинка в левом верхнем углу — это набор данных. Данные разделены на три категории: красный, светло-синий и темно-синий. Есть какие-то группировки. Например, на втором изображении все в левом верхнем углу относится к красной категории, в средней части присутствует смесь неопределенности и голубого, а в нижней части — к темной категории. На других изображениях показаны разные алгоритмы и то, как они пытаются классифицировать данные.

Проблемы и ограничения машинного обучения

Основной проблемой машинного обучения является отсутствие данных или разнообразие в наборе данных. Машина не может учиться, если нет доступных данных. Кроме того, набор данных с недостаточным разнообразием усложняет работу машины. Машина должна быть неоднородной, чтобы научиться осмысленному пониманию. Алгоритм редко может извлекать информацию при отсутствии или небольшом количестве вариантов. Рекомендуется иметь не менее 20 наблюдений на группу, чтобы помочь машине обучаться. Это ограничение приводит к плохой оценке и прогнозированию.

Применение машинного обучения

Дополнение:

  • Машинное обучение, которое помогает людям выполнять их повседневные задачи лично или в коммерческих целях, не имея полного контроля над результатом. Такое машинное обучение используется по-разному, например, виртуальный помощник, анализ данных, программные решения. Основной пользователь должен уменьшить количество ошибок из-за человеческого фактора.

Автоматизация:

  • Машинное обучение, которое работает полностью автономно в любой области без вмешательства человека. Например, роботы, выполняющие основные технологические операции на производственных предприятиях.

Финансовая отрасль

  • Машинное обучение становится все более популярным в финансовой сфере. Банки в основном используют ML для поиска закономерностей в данных, а также для предотвращения мошенничества.

Государственная организация

  • Правительство использует ML для управления общественной безопасностью и коммунальными услугами. Возьмем пример Китая с массовым распознаванием лиц. Правительство использует искусственный интеллект для предотвращения пешеходов.

Здравоохранение

  • Здравоохранение было одной из первых отраслей, которая начала использовать машинное обучение с распознаванием изображений.

Маркетинг

  • Широкое использование ИИ в маркетинге осуществляется благодаря широкому доступу к данным. До эпохи массовых данных исследователи разрабатывают передовые математические инструменты, такие как байесовский анализ, для оценки ценности клиента. С бумом данных отдел маркетинга полагается на ИИ для оптимизации отношений с клиентами и маркетинговой кампании.

Пример применения машинного обучения в цепочке поставок

Машинное обучение дает потрясающие результаты для визуального распознавания образов, открывая множество потенциальных приложений для физического осмотра и технического обслуживания по всей сети цепочки поставок.

Неконтролируемое обучение может быстро найти сопоставимые шаблоны в разнообразном наборе данных. В свою очередь, машина может выполнять проверку качества по всему логистическому узлу, отгрузку с повреждениями и износом.

Например, платформа IBM Watson может определить повреждение транспортировочного контейнера. Watson объединяет визуальные и системные данные для отслеживания, составления отчетов и предоставления рекомендаций в режиме реального времени.

В прошлом году менеджер по запасам в значительной степени полагался на основной метод оценки и прогнозирования запасов. При объединении больших данных и машинного обучения были реализованы более совершенные методы прогнозирования (улучшение на 20–30 % по сравнению с традиционными инструментами прогнозирования). С точки зрения продаж это означает увеличение от 2 до 3 % из-за потенциального снижения стоимости запасов.

Пример машинного обучения Google Car

Например, все знают автомобиль Google. Автомобиль полон лазеров на крыше, которые сообщают ему, где он находится относительно окружающей местности. Спереди у него есть радар, который информирует автомобиль о скорости и движении всех автомобилей вокруг него. Он использует все эти данные не только для того, чтобы выяснить, как управлять автомобилем, но и для того, чтобы выяснить и предсказать, что будут делать потенциальные водители рядом с автомобилем. Что впечатляет, так это то, что автомобиль обрабатывает почти гигабайт данных в секунду.

Почему машинное обучение важно?

На сегодняшний день машинное обучение — лучший инструмент для анализа, понимания и выявления закономерностей в данных. Одна из основных идей машинного обучения заключается в том, что компьютер можно обучить автоматизировать задачи, которые были бы изнурительными или невыполнимыми для человека. Явное нарушение традиционного анализа заключается в том, что машинное обучение может принимать решения с минимальным вмешательством человека.

Возьмем следующий пример; розничный агент может оценить цену дома, основываясь на собственном опыте и знании рынка.

Машину можно научить преобразовывать знания эксперта в функции. Характеристики — это все характеристики дома, района, экономической среды и т. д., которые определяют разницу в цене. Эксперту потребовалось несколько лет, чтобы овладеть искусством оценки стоимости дома. Его экспертиза становится все лучше и лучше после каждой продажи.

Машине требуются миллионы данных (т. е. пример), чтобы овладеть этим искусством. В самом начале обучения машина делает ошибку, как младший продавец. Как только машина увидит весь пример, она получит достаточно знаний, чтобы сделать свою оценку. При этом с невероятной точностью. Машина также может соответствующим образом скорректировать свою ошибку.

Большинство крупных компаний осознали ценность машинного обучения и хранения данных. По оценкам McKinsey, стоимость аналитики колеблется от $9,5 трлн до $15,4 трлн, в то время как от $5 до 7 трлн можно отнести к наиболее передовые технологии ИИ.

Вот и все о машинном обучении для начинающих. Надеюсь, вам понравится!!

источник: гуру99