Часть 1: Машинное обучение

«Рекомендуется: записывайте выделенные жирным шрифтом слова и копайтесь в них, чтобы приблизиться к машинному обучению. Не беспокойтесь о формулах, с которыми вы будете знакомиться со временем».

Машинное обучение способно адаптироваться и улучшаться с течением времени, поскольку оно способно учиться на новых данных и опыте. Это делает его мощным инструментом для решения сложных проблем, которые людям слишком сложно решить самостоятельно.

Существует множество различных типов реализации машинного обучения, но в целом их можно разделить на две категории: обучение с учителем и обучение без учителя.

Обучение с учителем – это тип машинного обучения, при котором компьютеру предоставляются помеченные обучающие данные и набор правил или алгоритмов, которым необходимо следовать. Цель обучения с учителем — использовать эти обучающие данные для прогнозирования или принятия решений в отношении новых, невидимых данных.

При обучении с учителем обучающие данные состоят из набора входных признаков (также называемых независимыми переменными) и набора соответствующих меток (также называемых зависимые переменные). !Цель состоит в том, чтобы использовать входные функции для прогнозирования меток для новых, невидимых данных.

А также существует два основных типа контролируемого обучения: классификация и регрессия. Целью классификации является прогнозирование категориального ярлыка, такого как «спам» или «не спам» для сообщения электронной почты, «злокачественное» (смертельное) или «доброкачественное». (безвредный) для опухоли. Целью регрессии является прогнозирование постоянной величины, например цены дома или цены акций компании.

Целью обучения модели машинного обучения является поиск параметров (также называемых весами (w) или коэффициентами (b)), которые минимизируют функцию стоимости. Это делается с помощью алгоритма оптимизации, такого как градиентный спуск, который многократно корректирует параметры модели, чтобы минимизировать затраты.

Градиентный спуск – это алгоритм оптимизации, который обычно используется для обучения моделей машинного обучения, включая линейную регрессию. Это итеративный алгоритм, который корректирует параметры модели (также называемые весами или коэффициентами) для минимизации функции стоимости.

2D и более простая версия Gradient Descent:

Существует множество различных алгоритмов и методов, которые можно использовать для контролируемого обучения, в том числе деревья решений, логистические и линейные регрессии, а также поддержка векторные машины. Выбор алгоритма зависит от характера проблемы и характеристик данных.

Линейная регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Это тип алгоритма обучения с учителем, который используется для задач регрессии, целью которых является прогнозирование непрерывного значения.

Основная идея линейной регрессии заключается в том, чтобы найти линию (или гиперплоскость в более высоких измерениях), которая лучше всего соответствует данным. Эта линия (или гиперплоскость) называется линией регрессии и используется для прогнозирования новых, невидимых данных.

В регрессионной модели функция стоимости является мерой того, насколько хорошо работает модель. Это функция, которая принимает предсказанные значения из модели и истинные значения и выводит скалярное значение, которое представляет производительность модели.

Существует множество различных функций стоимости, которые можно использовать в зависимости от проблемы и типа используемой модели. Некоторые общие функции затрат включают в себя:

Функция среднеквадратичной ошибки – это обычная функция стоимости для задач регрессии, целью которой является прогнозирование непрерывного значения. Он определяется как:

Функция Cross-Entropy Loss – этообычная функция стоимости для задач классификации, целью которых является прогнозирование метки категории. Он определяется как:

Обучение под наблюдением широко используется в различных приложениях, включая обработку естественного языка, распознавание/обработку изображений и распознавание/обработку речи, а также кредитный риск. оценка. Это мощный инструмент для решения сложных проблем, требующих способности делать прогнозы или принимать решения на основе шаблонов, извлеченных из размеченных данных.

Неконтролируемоеобучение – это тип машинного обучения, при котором компьютеру не предоставляются размеченные обучающие данные или конкретные правила, которым нужно следовать. Вместо этого он должен самостоятельно находить шаблоны и отношения в данных. Цель неконтролируемого обучения — обнаружить основную структуру в данных или сгруппировать похожие точки данных вместе.

Существует множество различных типов обучения без учителя, включая кластеризацию, уменьшение размерности и обнаружение аномалий.

Кластеризация включает в себя разделение данных на группы (также называемые кластерами) на основе сходства точек данных в каждой группе. Одним из распространенных подходов является использование алгоритма k-средних, который итеративно делит данные на kкластеров, сводя к минимуму сумму квадратов ошибок между точки данных и центроиды кластеров.

Обучение без учителя часто используется в качестве этапа предварительной обработки для обучения с учителем, так как оно может помочь выявить закономерности в данных, которые можно использовать в качестве входных признаков для модели с учителем. Его также можно использовать для EDA (исследовательского анализа данных) или для определения базовых структур данных.

Некоторые примеры типов проблем, которые можно решить с помощью обучения без учителя, включают:

Группировка клиентов в сегменты на основе их поведения или характеристик
Выявление шаблонов в финансовых данных для обнаружения мошеннических транзакций
Уменьшение размеров многомерных данных для визуализации или дальнейшего анализа
Выявление аномалий (ненормальностей) в производственных процессах для предотвращения дефектов
Кластеризация документов или текстовых данных на основе их содержимого для облегчения поиска информации. Предоставление информации (данных) для большего удобства использования. (рекомендательная система)

Неконтролируемое обучение имеет множество применений в различных областях, включая финансы, маркетинг и здравоохранение. Это мощный инструмент для обнаружения закономерностей и взаимосвязей в данных, которые могут быть незаметны человеку.

Спасибо!!! за то, что нашли время прочитать.

Часть 1: Машинное обучение

2D и более простая версия Gradient Descent:

Вопросы по теме