Полное руководство по машинному обучению

ТуласиРам Понаганти

Почему машинное обучение так популярно в наши дни?

Вероятно, стоит знать, что машинное обучение - не новая концепция. Возможно, вы слышали модные слова «искусственный интеллект» / «глубокое обучение» / «машинное обучение» / «большие данные» / «ученый по данным») в недалеком прошлом и, возможно, совсем недавно.

Растущая популярность машинного обучения в первую очередь связана с увеличением доступности данных и развитием технологий. Ежедневно внедряются более быстрые машины и более умные алгоритмы. Впоследствии вводятся облачные вычисления, где мы можем загружать большое количество данных. Объем данных, хранящихся на серверах, растет с экспоненциальной скоростью. Эти данные ценны и могут помочь нам принимать более обоснованные решения в будущем.

Определение машинного обучения:

Машинное обучение - это область исследования искусственного интеллекта, основанная на математических подходах и статистике, чтобы дать компьютерам возможность «учиться» на данных, то есть повышать их производительность при решении задач.

Машинное обучение

Написание эффективной и точной модели - ключ к увеличению шансов на успешный процесс машинного обучения.

На высоком уровне процесс:

Сбор и очистка данных (выборка) для представления больших данных (совокупности) - этот шаг иногда может занимать больше всего времени.
Изучать и понимать данные, чтобы определять тенденции и закономерности
Создайте модель, которая понимает данные и принимает решения на основе данных
Загрузите в модель 70% -80% выборочных данных. Этот набор данных известен как данные обучения.
Подтвердите модель с остальными данными. Этот набор данных известен как тестовые данные.
По результатам при необходимости повторите действия.

обзор

Типы алгоритмов машинного обучения:

Алгоритмы машинного обучения с учителем
Алгоритмы неконтролируемого машинного обучения
Алгоритмы машинного обучения с подкреплением

Машинное обучение с учителем:

Связь между функциями (независимая переменная) и целевой переменной (помеченная) для данного набора записей или наблюдений. Это применимо только в том случае, если ваш набор данных содержит помеченные данные (основные истинные значения (переменная, оцененная человеком)). Следовательно, цель обучения с учителем состоит в том, чтобы изучить функцию, которая с учетом выборки данных и желаемых выходных данных наилучшим образом аппроксимирует взаимосвязь между входными и выходными данными, наблюдаемую в данных.

Проблемы контролируемого обучения подразделяются на проблемы «регрессии» и «классификации». В задаче регрессии мы пытаемся предсказать результаты в рамках непрерывного вывода, что означает, что мы пытаемся сопоставить входные переменные с некоторой непрерывной функцией. В задаче классификации мы вместо этого пытаемся предсказать результаты на дискретном выходе. Другими словами, мы пытаемся сопоставить входные переменные по дискретным категориям.

Обучение с учителем похоже на выполнение задачи, которой вас учили раньше, и у вас есть довольно хорошее представление об ожидаемом результате для заданного набора входных данных.

Неконтролируемое машинное обучение:

Алгоритмы неконтролируемого обучения предназначены для моделирования структур, распределений данных и обработки самих результатов.

Входы даны без ожидаемых выходов.

Входные данные не имеют тегов, но имеют алгоритмы для вывода внутренних связей данных, таких как кластеризация и изучение правил ассоциации. Общие алгоритмы включают независимый компонентный анализ, алгоритмы K-средних и априорные алгоритмы.

Обучение без учителя похоже на выполнение задачи, с которой вы раньше не сталкивались, и вы начинаете процесс со сбора как можно большего количества информации. Представьте себе, что вы изучаете язык, не зная его основ.

При обнаружении новых данных данные сначала классифицируются, а затем распределяются по кластерам или группам. Наконец, решения принимаются на основе новых данных.

Думайте о неконтролируемых алгоритмах как об алгоритмах самообучения.

Предоставляется классификационная информация, а затем большие данные вводятся в алгоритм, чтобы он мог классифицировать данные по соответствующим группам и затем принимать решения.

Обучение без учителя может использоваться для решения очень сложных по своей природе задач, поскольку алгоритмы могут научиться решать проблему самостоятельно.

Обучение с подкреплением:

Входные данные в качестве обратной связи для модели, подчеркивая, как действовать в зависимости от окружающей среды, чтобы максимизировать ожидаемые выгоды. Разница между контролируемым обучением заключается в том, что оно не требует правильных пар ввода / вывода и не требует точной коррекции неоптимального поведения. Обучение с подкреплением больше ориентировано на онлайн-планирование и требует баланса между исследованием (неизвестное) и соответствием (существующими знаниями).

Вдохновленные психологией поведения, алгоритмы в основном используются в теории игр и методах оптимизации моделирования. Концепция обучения с подкреплением вращается вокруг агентов, предпринимающих действия в зависимости от вознаграждения за свои предыдущие действия.

Список алгоритмов машинного обучения, разделенных на категории, применимые в области науки о данных

Алгоритм регрессии

Линейная регрессия
Логистическая регрессия
Множественная адаптивная регрессия (MARS)
Оценка сглаживания локального рассеяния (LOESS)

Алгоритм обучения на основе экземпляров

K - алгоритм близости (кНН)
Векторизация обучения (LVQ)
Самоорганизующийся алгоритм сопоставления (SOM)
Алгоритм локально-взвешенного обучения (LWL)

Алгоритм регуляризации

Хребтовая регрессия
LASSO (оператор наименьшей абсолютной усадки и выбора)
Эластичная сетка
Минимальная угловая регрессия (LARS)

Алгоритм дерева решений

Дерево классификации и регрессии (CART)
Алгоритм ID3 (Итерационный дихотомайзер 3)
C4.5 и C5.0
CHAID （Автоматическое обнаружение взаимодействия по критерию хи-квадрат (）
Случайный лес
Сплайн с многомерной адаптивной регрессией (MARS)
Машина для повышения градиента (GBM)

Байесовский алгоритм

Наивный байесовский
Гауссовский байесовский
Полиномиальный наивный байесовский
AODE (усредненные оценки с одной зависимостью)
Байесовская сеть убеждений

Алгоритм на основе ядра

Машина опорных векторов (SVM)
Радиальная базисная функция (RBF)
Линейный дискриминантный анализ (LDA)

Алгоритм кластеризации

K - среднее
К - среднее число
EM алгоритм
Иерархическая кластеризация

Изучение правил связывания

Алгоритм априори
Алгоритм Eclat

Нейронные сети

датчик
Алгоритм обратного распространения ошибки (BP)
Сеть Хопфилда
Сеть радиальных базисных функций (RBFN)

Глубокое обучение

Глубокая машина Больцмана (DBM)
Сверточная нейронная сеть (CNN)
Рекуррентная нейронная сеть (RNN, LSTM)
Составной автокодер

Алгоритм уменьшения размерности

Анализ главных компонентов (PCA)
Регрессия главных компонентов (ПЦР)
Регрессия частичных наименьших квадратов (PLSR)
Карта лосося
Анализ многомерного масштабирования (MDS)
Метод проекционного преследования (ПП)
Линейный дискриминантный анализ (LDA)
Смешанный дискриминантный анализ (MDA)
Квадратичный дискриминантный анализ (QDA)
Гибкий дискриминантный анализ (FDA)

Интегрированный алгоритм

Повышение
Упаковка
AdaBoost
Обобщение стека (смешанное)
Алгоритм GBM
Алгоритм GBRT
Случайный лес

Другие алгоритмы

Алгоритм выбора характеристик
Алгоритм оценки производительности
Обработка естественного языка
Компьютерное зрение
Рекомендуемая система
Обучение с подкреплением
Миграционное обучение

Приложения для машинного обучения

Финансовые организации начали активно вкладывать средства в машинное обучение.

Сейчас существует ряд приложений, например:

Управление рисками - приложения для прогнозирования кредитного риска и дефолта контрагентов, обнаружение аномалий рыночных данных
Финансы - борьба с мошенничеством в сделках, анализ тенденций финансовых данных, построение обменных курсов, внедрение краткосрочных процентных ставок, автоматический трейдер, который максимизирует доход и минимизирует риски.
Служба поддержки клиентов - Обучение сотрудников
Технология - Фильтрация электронной почты
Здравоохранение - Выявление проблем со здоровьем
Автомобиль - Распознавание образов и изображений, беспилотные автомобили
Телекоммуникации - Распознавание лиц, проверка безопасности

Наконец-то

В этой статье основное внимание уделялось тому, что такое процесс машинного обучения, и рассказывалось, как работает машинное обучение. Также были описаны варианты алгоритмов машинного обучения.

Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.

Ссылки: