Машинное обучение звучит круто, не правда ли? Я изучаю биологию и ничего не понимаю в этой области информатики. Эта изоляция дала мне время и силы изучить это. Для тех, кому нужно непрофессиональное введение в машинное обучение, я поделюсь примером. Однажды мой папа спросил меня, что я продолжаю изучать? Я не знала, как ему это объяснить. В моей голове были слова «нормализация», «переоснащение», «модели», «лазурь» и т. Д. В следующую минуту он пытался набрать текст другу, используя распознавание речи Google на своем телефоне. Мое следующее предложение было, папа, вот что я изучаю! Наука, лежащая в основе этого процесса, называется машинным обучением. Это подмножество искусственного интеллекта, которое фокусируется на создании программ, способных к обучению без явных инструкций.

Следующая статья включает одну из основных концепций машинного обучения, то есть контролируемое обучение. Надеюсь, вам всем это понравится!

1. Обучение с учителем: классификация

Первый тип контролируемого обучения, который мы рассмотрим, - это классификация. Напомним, что основной отличительной характеристикой классификации является тип результатов, которые она производит:

В задаче классификации выходы бывают категориальными или дискретными.
В рамках этого широкого определения существует несколько основных подходов, которые различаются в зависимости от того, сколько классов или категорий используются, и может ли каждый выход принадлежать только одному классу или нескольким классам. Давайте посмотрим.

Вот некоторые из наиболее распространенных типов проблем классификации:

· Классификация табличных данных: данные доступны в форме строк и столбцов, которые могут быть получены из самых разных источников данных.

· Классификация по данным изображения или звука: обучающие данные состоят из изображений или звуков, категории которых уже известны.

· Классификация текстовых данных: обучающие данные состоят из текстов, категории которых уже известны.

Как мы знаем, машинное обучение требует числовых данных. Это означает, что с изображениями, звуком и текстом на этапе подготовки необходимо выполнить несколько шагов, чтобы преобразовать данные в числовые векторы, которые могут быть приняты алгоритмами классификации.

Следующие изображения представляют собой лишь введение в различные алгоритмы с их основными характеристиками. Не нужно расстраиваться! Изучение алгоритмов - медленный и устойчивый процесс.

* Метод «один против всех»: для каждого из нескольких выходных классов создается двоичная модель. Каждая из этих бинарных моделей для отдельных классов оценивается в сравнении с ее дополнением (всеми другими классами в модели), как если бы это была проблема бинарной классификации. Затем выполняется прогнозирование путем запуска этих двоичных классификаторов и выбора прогноза с наивысшей степенью достоверности.

По сути, создается ансамбль отдельных моделей, а затем результаты объединяются, чтобы создать единую модель, которая предсказывает все классы. Таким образом, любой двоичный классификатор можно использовать в качестве основы для модели «один против всех».

* SMOTE (метод передискретизации синтетического меньшинства) - один из наиболее часто используемых методов передискретизации для решения проблемы дисбаланса. Он направлен на балансирование распределения классов путем случайного увеличения примеров классов меньшинств путем их воспроизведения. SMOTE синтезирует новые экземпляры меньшинства между существующими экземплярами меньшинства.

2. Мультиклассовые алгоритмы
a) Мультиклассовая логистическая регрессия
* Логистическая регрессия
- это метод классификации, используемый для прогнозирования значения категориальной зависимой переменной от ее отношения к одной или нескольким предполагаемым независимым переменным. иметь логистическое распределение. Если зависимая переменная имеет только два возможных значения (успех / неудача), то логистическая регрессия является двоичной. Если зависимая переменная имеет более двух возможных значений (группа крови с учетом результатов диагностического теста), то логистическая регрессия является полиномиальной.

2 Ключевыми параметрами для настройки этого алгоритма являются:
- Допуск оптимизации: управление временем остановки итераций. Если улучшение между итерациями меньше указанного порога, алгоритм останавливается и возвращает текущую модель.

-Вес регуляризации. Регуляризация - это метод предотвращения переобучения путем наложения штрафов на модели с экстремальными значениями коэффициентов. Этот фактор определяет, насколько наказывать модели на каждой итерации.

б) Мультиклассовая нейронная сеть
Включает входной слой, скрытый слой и выходной слой. Взаимосвязь между вводом и выводом выясняется при обучении нейронной сети на вводимых данных.
3 ключевых параметра включают:
- Количество скрытых узлов: позволяет настроить количество скрытые узлы в нейронной сети.
- Скорость обучения: контролирует размер шага, выполняемого на каждой итерации перед исправлением.
- Количество итераций обучения : максимальное количество раз, которое алгоритм должен обрабатывать обучающие примеры.

в) Лес решений с несколькими классами
Набор деревьев решений. Работает путем построения нескольких деревьев решений и последующего голосования за самый популярный выходной класс.
5 ключевых параметров включают:
-Resampling method: Это контролирует метод, используемый для создания отдельных деревьев. .
- Количество деревьев решений: определяет максимальное количество деревьев решений, которое может быть создано в ансамбле.
- Максимальная глубина деревьев решений : это число, ограничивающее максимальную глубину любого дерева решений.
- Число случайных разбиений на узел: число разбиений, используемых при построении каждого узла дерево.
- Минимальное количество выборок на листовой узел: определяет минимальное количество наблюдений, необходимых для создания любого конечного узла в дереве.

3. Контролируемое обучение: регрессия
В задаче регрессии результат может быть числовым или непрерывным.

3.1 Введение в регрессию
Общие типы проблем регрессии включают:

· Регрессия табличных данных: данные доступны в форме строк и столбцов, которые могут быть получены из самых разных источников данных.

· Регрессия по данным изображения или звука. Данные обучения состоят из изображений / звуков, числовые оценки которых уже известны. На этапе подготовки необходимо выполнить несколько шагов, чтобы преобразовать изображения / звуки в числовые векторы, принимаемые алгоритмами.

Регрессия текстовых данных. Данные обучения состоят из текстов, числовые оценки которых уже известны. На этапе подготовки необходимо выполнить несколько шагов, чтобы преобразовать текст в числовые векторы, принимаемые алгоритмами.

Примеры: цены на жилье, отток клиентов, жизненная ценность клиента, прогноз (временные ряды) и аномалия. Обнаружение.

3.2 Категории алгоритмов

К распространенным алгоритмам машинного обучения для регрессионных задач относятся:

· Линейная регрессия

· Быстрое обучение, линейная модель

· Регрессия леса решений

· Точное и быстрое время тренировки

· Регрессия нейронной сети

· Точное и продолжительное время обучения

Числовой результат: зависимая переменная
* Метод наименьших квадратов: вычисляет ошибку как сумму квадратов расстояния от фактического значения до прогнозируемой линии. Он соответствует модели за счет минимизации квадратичной ошибки. Этот метод предполагает наличие сильной линейной связи между входными данными и зависимой переменной.
* Градиентный спуск: подход заключается в минимизации количества ошибок на каждом этапе процесса обучения модели.

Алгоритм поддерживает некоторые из тех же гиперпараметров, которые обсуждались для алгоритмов мультиклассового леса решений, таких как количество деревьев, максимальная глубина и т. Д.

Поскольку это контролируемый метод обучения, он требует набора данных с тегами, который включает столбец меток, который должен быть числовым типом данных. Алгоритм также поддерживает такие же гиперпараметры, как количество скрытых узлов, скорость обучения и количество итераций, которые были включены в алгоритм нейронной сети с несколькими классами.

* Регуляризация - один из гиперпараметров в машинном обучении, который представляет собой процесс регуляризации параметров, которые ограничивают, регулируют или уменьшают оценки коэффициентов до нуля. Этот метод позволяет избежать риска переобучения, препятствуя изучению более сложной или гибкой модели.

4. Автоматизация обучения регрессоров
Ключевые проблемы успешного обучения модели машинного обучения включают:
- выбор функций из доступных в наборах данных;
- выбор правильного алгоритма для задачи.
- настройка гиперпараметров выбранного алгоритма.
- выбор правильных показателей оценки для измерения производительности обученной модели.
- весь процесс довольно итеративен.

Идея автоматизированного машинного обучения состоит в том, чтобы обеспечить автоматическое исследование комбинаций, необходимых для успешного создания обученной модели. Он интеллектуально тестирует несколько алгоритмов и гиперпараметров параллельно и возвращает лучший из них. Следующие шаги включают развертывание модели в производстве и дальнейшую настройку или уточнение, если это необходимо для повышения производительности.

Справочный материал:
Фундаментальный курс Udacity по машинному обучению для Microsoft Azure
https://docs.microsoft.com/en-us/azure/?product=featured
https: / /docs.microsoft.com/en-us/

Удачного обучения :)