Глава 00: Введение в машинное обучение для начинающих

Допустим, кто-то дал картинку и просит вас написать программу, которая сообщит им, что на этой картинке изображен банан. Традиционное программирование требует набора инструкций для идентификации этого изображения, а это потребует большого количества кода и оставляет много места для ошибок. С машинным обучением нам просто нужны точные данные. благодаря Интернету и смартфонам у нас есть масса данных. В программе машинного обучения можно узнать поведение на основе данных.

«Считается, что компьютерный алгоритм / программа учится на показателе производительности P и испытывает E с некоторым классом задач T, если его производительность при выполнении задач в T, измеренная с помощью P, улучшается с опытом E.» --- Tom M. Mitchell.

Приложения машинного обучения

Машинное обучение можно использовать во многих сферах, некоторые из них:

Системы рекомендаций
Прогноз погоды
Диагностика заболеваний
Робототехника
Самостоятельное вождение автомобилей

Типы машинного обучения:

Машинное обучение в основном делится на четыре категории, а именно:

1. Обучение с учителем

Обучение с учителем - это первый тип машинного обучения. В практическом машинном обучении большинство приложений использует обучение с учителем.

В контролируемом обучении мы знаем ввод и вывод. Для простоты предположим, что набор входных данных обозначен X, который называется Features. выводить данные в виде Y, который называется Target.

Давайте посмотрим на набор данных Титаника в качестве примера. Если человек выжил в катастрофе или нет - целевые значения, все остальные столбцы - это характеристики.

Типы обучения с учителем: -

Обучение с учителем в основном разделено на две части, а именно:

1.1. Классификация

В классификации используются помеченные данные, и эти данные используются для прогнозирования в прерывистой форме. Вывод информации не всегда непрерывен, а график является нелинейным. В методе классификации алгоритм учится на вводимых ему данных, а затем использует это обучение для классификации новых наблюдений.

Есть ряд классификационных моделей. Модели классификации включают логистическую регрессию, машины опорных векторов (SVM), K-ближайших соседей, наивную байесовскую классификацию, классификацию дерева решений и классификацию случайных лесов.

1.2 Регрессия

В регрессии используются помеченные данные, и эти данные используются для прогнозирования в непрерывной форме. Вывод входных данных всегда продолжается, а график является линейным. Регрессия - это форма метода прогнозного моделирования, который исследует взаимосвязь между зависимой переменной [Выходы] и независимой переменной [Входы].

Пример применения регрессии. Если продажи компании неуклонно росли каждый месяц в течение последних лет, путем проведения линейного анализа данных о продажах с ежемесячными продажами. Компания может прогнозировать продажи в ближайшие месяцы. Просто мы можем записать это в уравнение.

Существует ряд моделей регрессии. Модели регрессии включают линейную регрессию, алгоритм множественной регрессии, логистическую регрессию и регрессию опорных векторов.

Классификация против регрессии

Обратим внимание на то, что разница между алгоритмами регрессии и алгоритмами классификации иногда сбивает с толку большинство специалистов по данным, что заставляет их применять неправильные методологии для решения своих задач прогнозирования.

2. Обучение без учителя

Неконтролируемое обучение - это второй тип машинного обучения, в котором немаркированные данные используются для обучения алгоритма, что означает, что он используется с данными, не имеющими исторических меток. То, что показывается, должно вычисляться алгоритмом. Цель состоит в том, чтобы исследовать данные и найти в них некоторую структуру.

Алгоритм определяет данные и в соответствии с сегментами данных создает кластеры данных с новыми метками.

Типы обучения без учителя: -

Обучение без учителя в основном разделено на две части, а именно:

2.1 Кластеризация

В кластеризации используются немаркированные данные, и это процесс группирования похожих объектов вместе, а затем сгруппированные данные используются для создания кластеров.

Найдите сходство в точке данных и сгруппируйте похожие точки данных вместе и выясните, к какому кластеру должны принадлежать новые данные.

Есть несколько моделей кластеризации. Модели кластеризации включают K-средние и иерархическую кластеризацию.

2.2 Уменьшение размерности

При уменьшении размерности размеры данных уменьшаются, чтобы удалить ненужные данные из ввода.

Этот метод относится к процессу преобразования набора данных, имеющих большие размеры, в данные, которые несут те же данные и небольшие размеры.

Модели уменьшения размерности включают анализ главных компонентов и линейный дискриминантный анализ.

3. Полу-контролируемое обучение

В большинстве случаев нам нужны размеченные данные для контролируемого машинного обучения. Другая категория алгоритмов, называемая неконтролируемыми алгоритмами, не требует ярлыков, но может учиться на немаркированных данных.

Теперь представьте, что вы хотите обучить модель классификации текстовых документов, но хотите дать своему алгоритму подсказку о том, как создавать категории. Вы хотите использовать только очень небольшую часть помеченных текстовых документов, потому что каждый документ не помечен, и в то же время вы хотите, чтобы ваша модель классифицировала немаркированные документы как можно точнее на основе документов, которые уже помечены.

К счастью, существует класс алгоритмов, называемых частично контролируемыми алгоритмами, которые могут учиться на частично размеченных наборах данных.

Знакомство с обучением без учителя и состязательным обучением
medium.com

4. Обучение с подкреплением

Обучение с подкреплением похоже на обучение вашей собаки новой технике. В обучении с подкреплением мы предоставим программную обратную связь в виде поощрений и наказаний, основанных на том, что эта собака будет определять идеальное поведение.

Заключение

В этой статье были рассмотрены некоторые варианты использования алгоритмов машинного обучения, общие методы и популярные подходы, используемые в этой области. Важно помнить, что алгоритмы, методы и подходы будут продолжать меняться.

Спасибо за прочтение. Удачного обучения.