Дневник путешественника на пути к машинному обучению

Содержание
• Машинное обучение
• Модель
• Типы алгоритмов машинного обучения
• Контролируемое обучение
• Неконтролируемое обучение
• Обучение с подкреплением
• Полезные термины набора данных
• Функция потерь
• Функция затрат

Что такое машинное обучение?
Машинное обучение (ML) - это ветвь искусственного интеллекта (AI). Это процесс поиска причинно-следственных связей и закономерностей, обычно в огромном количестве данных, с использованием алгоритмов и статистических моделей без явного программирования.

Как работает машинное обучение?
Алгоритмы машинного обучения используют различные методы для поиска и вычисления закономерностей в заданных данных. Затем попробуйте предсказать результат и сравнить его с фактическим результатом. Этот процесс продолжается, поскольку они постепенно уменьшают ошибку в прогнозе и устанавливают стандарт. Результатом алгоритма машинного обучения является модель машинного обучения, состоящая из данных модели и алгоритма прогнозирования.

Что такое «обучение» в машинном обучении?
Процесс получения алгоритма прогнозирования (классификатора) из данных называется обучением.

Что такое модель / механизм прогнозирования / классификатор?
Модель - это функция с параметром θ . Модель - это результат алгоритма машинного обучения после обработки данных, состоящий из данных модели и процедуры использования данных для прогнозирования. Модель представляет то, что было изучено алгоритмом.
Например, в линейной регрессии :

Алгоритм: найдите набор коэффициентов, которые минимизируют ошибку в наборе обучающих данных.
Модель: данные модели: вектор коэффициентов и
алгоритм прогнозирования: множественные и суммарные коэффициенты с входной строкой.

В k-ближайших соседях:

Алгоритм: сохранение данных обучения.
Модель: данные модели: весь обучающий набор данных.
Алгоритм прогнозирования: найдите k наиболее похожих строк и усредните их целевые переменные.

Алгоритмы обеспечивают своего рода автоматическое программирование, в котором модели представляют программу. Прочтите разницу между алгоритмом и моделью в машинном обучении.

Типы алгоритмов машинного обучения.
Модели машинного обучения обычно делятся на три группы: контролируемое обучение (управляемое задачами), обучение без учителя (на основе данных) и обучение с подкреплением (учиться на ошибках).

Здесь вы можете увидеть краткий обзор различных типов алгоритмов машинного обучения:

Контролируемое обучение:
При контролируемом обучении алгоритм обучается на помеченном наборе данных. Здесь предусмотрены как ввод, так и вывод. Модель изучает взаимосвязь между независимыми и зависимыми переменными, чтобы дать прогноз для неизвестных целей.

например: определение цен на жилье, определение категории листьев, прогнозирование последовательности и т. д.

Обычно контролируемое обучение делится на две категории: классификация и регрессия. Есть и другие категории.

Обучение классификаторам: прогнозирует класс заданных точек данных.
например: двоичная классификация, логистическая регрессия, дерево решений, ансамблевой классификатор, наивный байесовский метод, KNN и т. д.
В классификации есть два типа учащихся:
Ленивые учащиеся просто сохраняют данные обучения и ждут, пока не появятся данные тестирования. Классификация проводится на основе наиболее связанных данных в сохраненных обучающих данных. У них меньше времени на обучение, но больше на прогнозирование.
например: k-ближайший сосед, рассуждение на основе случая.
Активные учащиеся создают модель классификации на основе заданных обучающих данных перед получением тестовых данных для классификации. Он должен иметь возможность придерживаться единственной гипотезы, охватывающей все пространство экземпляров. Из-за построения модели у активных учеников требуется много времени на обучение и меньше времени на прогнозирование.
например: Decision Tree, Naive Bayes, ANN.
Регрессия: прогнозирует непрерывную переменную.
например: линейная регрессия.
Порядковая регрессия: предсказывает дискретное значение y ∈ Y, как при классификации, но есть упорядочение элементов Y. Относительный порядок между различными значениями имеет большое значение.
Модель может быть сформулирована как: Pr (y ≤ i | x) = σ (θᵢ - wx)
например: оценка клиентов, обзор продукта и т. д.
Классификация таксономии: вывод представляет собой дискретное значение y ∈ Y, подобное классификации, но элементы Y упорядочены на основе дерева.
например: Таксономия животных или растений и т. д.
Прогнозирование последовательности и структуры: последовательность, дерево или график y ∈ Y.
например: анализ естественных языков, сворачивание белков и т. д.
Рейтинг: прогнозирует сортировку элементов y ∈ Y.
например: ранжирование результатов поиска.
Рекомендации: прогнозирует матрицу элементов для каждого пользователя, чтобы рекомендовать y ∈ Y для пользователя.
например: рекомендация продукта, рекомендация видео YouTube, рекомендация музыки и т. д.

Неконтролируемое обучение:
алгоритм пытается определить структуру данных путем извлечения функций, группировки, кластеризации и поиска шаблонов самостоятельно, поскольку цель неизвестна.

например: сегментация клиентов, рассылка по электронной почте, сегментация рынка и т. д.

Обучение с подкреплением (полуавтоматическое обучение) :
В обучении с подкреплением алгоритм учится управлять динамической системой (средой). Он пытается найти модель для достижения желаемого поведения (исследование) или сохранить наилучшее возможное состояние для конкретной задачи (эксплуатация).

например: автопилот для вертолета, беспилотные автомобили, места размещения рекламы и т. д.

Здесь программный агент выполняет действия в среде, чтобы максимизировать совокупное вознаграждение, и применяет наблюдения для повышения производительности. Компромисс между исследованием и эксплуатацией - это проблема, которую следует учитывать при разработке алгоритма обучения с подкреплением.

Пространство модели / Языковой уклон / Пространство параметров / Пространство гипотез:
Набор всех моделей или классификаторов, θ ∈ Θ.

Полезные термины набора данных:

Функция потерь
. Измеряет, насколько модель соответствует данным. Он вычисляет ошибку между целевым и прогнозируемым значением, ℓ (f (xᵢ), yᵢ). Потери сведутся к глобальному минимуму (наименьшему значению) только в том случае, если функция потерь является выпуклой (если линия проведена между любыми двумя точками функции, линия будет выше всех других точек между этими точками) .

Вот несколько типов функций потерь (L0, L1, L2 - это нормы):
1. Потеря L0 / потеря нуля: Ошибка равна 0, если целевое и прогнозируемое значение одинаковы, иначе 1. На практике, если знаки (положительный или отрицательный) целевого значения и прогнозируемого значения совпадают, тогда ошибка равна 0. Используется в линейной классификации . Он не выпуклый, поэтому его сложно свести к минимуму!

2. Потери L1 / Абсолютные убытки: абсолютное значение разницы между целевым и прогнозируемым значением. У него нет толерантности к выбросам. Диапазон потерь от 0 до + inf. Используется в регрессии.

Обычно используется вариант Средняя абсолютная ошибка (MAE). Это средняя абсолютная потеря по всем точкам данных. MAE чувствителен к выбросам, и оптимальным прогнозом будет медианное целевое значение.

3. Потери L2 / Квадратичные убытки / Квадратичные убытки: квадратное значение разницы между целевым и прогнозируемым значением. Используется в регрессии. Он немного терпим к более мелким ошибкам. Поскольку ошибки возведены в квадрат, это дает относительно высокий вес более крупным ошибкам. Диапазон потерь от 0 до + inf.

Обычно используется вариант Среднеквадратичная ошибка (MSE). Это среднее значение квадрата потерь по всем точкам данных. Он чувствителен к выбросам. MSE хорошо использовать для нормально распределенных данных вокруг среднего значения, а также в тех случаях, когда важно наказывать выбросы.

Другой функцией потерь является Среднеквадратичная ошибка (RMSE). Это квадратный корень из MSE. Таким образом, RMSE - это среднее расстояние между точкой данных от подобранной линии, измеренное вдоль вертикальной линии. RMSE можно напрямую интерпретировать в единицах измерения, поэтому это лучший показатель степени соответствия, чем коэффициент корреляции.

4. ɛ-интенсивные потери:
Функция потерь не равна 0, если абсолютная ошибка минус больше 0 . Здесь , ɛ - предопределенный параметр максимальной погрешности. Он более отказоустойчив, чем MAE или MSE, поскольку игнорирует неверные прогнозы в пределах допуска. Он используется в опорной векторной регрессии (SVR) для получения надежных оценок регрессии. Потери колеблются от ɛ до + inf или 0.

5. Потеря перцептрона
. Она выпуклая. При правильной классификации ошибка равна 0. Однако для неверно классифицированных прогнозов ошибка не равна 1, это отрицательное произведение целевого и прогнозируемого значения. Используется в алгоритме персептрона для классификации. Диапазон потерь от 0 до + inf.

6. Потеря на шарнире:
Используется для классификации «с максимальным запасом», особенно для машины поддержки векторов (SVM). Он часто используется для задач двоичной классификации. При использовании потери шарнира важно изменить метки класса на -1 и +1. Потеря шарнира наказывает как неправильные прогнозы, так и правильные прогнозы, которые не являются достоверными. Диапазон потерь от 1 до + inf или 0. Потеря на шарнире не дифференцируема, но является выпуклой.

Квадратный шарнир потеря используется для задач двоичной классификации с «максимальной маржой». Потеря шарнира гарантирует, что во время обучения классификатор найдет границу классификации, которая является наиболее удаленной от каждого из различных классов точек данных, насколько это возможно. Другими словами, он находит границу классификации, которая гарантирует максимальный запас между точками данных различных классов.

Квадратная потеря шарнира используется для задач, связанных с решениями да / нет (бинарными) и не интересующихся знанием того, насколько уверен классификатор в отношении классификации (то есть вероятностей классификации). Он используется в сочетании с функцией активации tanh () на последнем уровне, чтобы сохранить вывод в диапазоне от -1 до +1.
например: классификация электронной почты на «спам» и «не спам».

7. Логистические потери:
Это выпуклая функция. Погрешность практически никогда не равна 0. Используется при классификации.

8. Потеря Пуассона:
Используется для регрессии при моделировании данных подсчета, следующих за распределением Пуассона. Минимизация потерь Пуассона эквивалентна максимизации вероятности данных в предположении, что цель исходит из распределения Пуассона, обусловленного входными данными.
например: отток клиентов на следующей неделе.

9. Перекрестная энтропия:
Перекрестная энтропия - это мера разницы между двумя распределениями вероятностей для данной случайной величины или набора событий. Эти функции потерь обычно используются в нейронных сетях.

Энтропия - это количество битов, необходимых для передачи случайно выбранного события из распределения вероятностей. Скошенные распределения имеют низкую энтропию, распределения, в которых события имеют равную вероятность, имеют большую энтропию.

Категориальная перекрестная энтропия - это функция потерь, которая используется в задачах многоклассовой классификации. Он предназначен для количественной оценки разницы между двумя распределениями вероятностей. Цель должна быть закодирована в горячем режиме. С ним используется функция активации Softmax.
например: Распознавание рукописных цифр MNIST.

Разреженная категориальная перекрестная энтропия аналогична категориальной перекрестной энтропии, с той лишь разницей, что в качестве целевого используется только одно значение. Он экономит память, а также время вычислений, поскольку хранит одно целое число для класса вместо одного горячего вектора.

Двоичная перекрестная энтропия - это функция потерь, используемая в задачах двоичной классификации. Он равен среднему значению категориальной перекрестной энтропии для многих задач с двумя категориями. Очень удобно обучать модель решать множество задач классификации одновременно, если каждая классификация может быть сведена к двоичному выбору (т.е. да или нет, A или B, 0 или 1).

Для двоичной кросс-энтропии необходимо вычислить логарифмы предсказания и (1 - предсказание), которые существуют только в том случае, если предсказание находится между 0 и 1. Функция активации сигмоида - единственная функция, которая гарантирует, что результат находится в этом диапазоне.
например: Отметьте песни жанром.

Функция стоимости / функция ошибок:
Функция потерь вычисляется в каждом случае, но функция стоимости имеет дело со штрафом для обучающего набора или всего пакета. Функция стоимости рассчитывается как среднее значение функций потерь. Для одного тренировочного цикла или эпохи потери вычисляются многократно, но функция стоимости вычисляется только один раз.

(Следующая глава - Регуляризатор, Риски, Анализ проблем, Предварительная обработка данных)

Дневник путешественника на пути к машинному обучению - Глава 1

Вопросы по теме