В этой статье основное внимание уделяется общей картине традиционных алгоритмов машинного обучения; Что касается деталей, пожалуйста, проверьте или выполните поиск самостоятельно.

В чем разница между регрессией и классификацией?
Существуют оба типа машинного обучения с учителем. Основное отличие состоит в том, что выходная переменная в регрессии является числовой (непрерывной), а для классификации - категориальной (дискретной).

Что такое линейная регрессия? [контролируемая, регрессия, среднеквадратичная ошибка]
Мы находим взаимосвязь между независимыми и зависимыми переменными, подбирая линию регрессии, которая является полиномиальным уравнением. В этой задаче мы обычно используем среднеквадратичную ошибку в качестве функции потерь.

Что такое логистическая регрессия? [контролируемая, классификация, перекрестная энтропия]
На самом деле это проблема классификации, а не регрессии. Мы вычисляем вероятность генерации данных и выбираем более высокий в качестве помеченного класса. Мы используем кросс-энтропию вместо среднеквадратичной ошибки в этой задаче, поскольку значение, прошедшее сигмовидную функцию, будет иметь небольшой градиент при приближении к 0 (далеко от цели) и 1 (близко к цели).

Что такое наивный байесовский метод? [контролируемая, классификация, максимальная вероятность]
Это метод классификации, основанный на теореме Байеса с предположением независимости между предикторами, что означает, что конкретный признак не связан с каким-либо другим признаком. Мы используем гауссовское распределение в качестве априорного и вычисляем апостериорную вероятность для каждого класса, затем выбираем самый высокий в качестве результата предсказания.

Что такое машина опорных векторов? [под наблюдением, классификация,…]
Это метод классификации. Мы рисуем каждый элемент данных как точку в n-мерном пространстве с метками. Мы хотим найти гиперплоскости, которые разделяют эти классы и максимизируют запас, который был бы более устойчивым при возмущениях входных данных. Также существует гиперпараметр, определяющий, что ограничения легко или сложно игнорировать.

Что такое k-ближайшие соседи? [контролируемая, классификация, расстояние (манхэттенское, евклидово)]
KNN может использоваться как для задач классификации, так и для задач регрессии, но с большей вероятностью будет использоваться в задаче классификации. Он хранит все доступные данные с метками и классифицирует новые части данных большинством голосов своих k соседей, обычно на расстоянии между самим новым случаем и соседом.

Что такое k-means? [неконтролируемый, кластеризация]
Это тип неконтролируемого алгоритма, который решает проблему кластеризации. Он вычисляет центроиды k кластеров и назначает точку данных этому кластеру, имеющему наименьшее расстояние между его центроидом и точкой данных. Точки данных внутри кластера однородны и неоднородны по отношению к одноранговым группам.

Что такое анализ главных компонентов?
PCA используется для уменьшения размеров, чтобы упростить исследование и визуализацию данных. Центральная концепция состоит в том, чтобы найти новые оси главных компонент с наибольшим отклонением в порядке новой координаты. Каждый компонент линейно составлен из исходных осей и ортогонален другой, что обеспечивает нулевую корреляцию внутри них.

Что такое локально линейное вложение?
Для LLA оно сохраняет расстояние в пределах локальных соседей. Проще говоря, LLA учитывает атрибуты: если x1 и x2 близки в области с высокой плотностью, то новые преобразованные точки z1 и z2 также близки друг к другу. На самом деле это нелинейный подход к уменьшению размерности. Сначала мы находим набор представления отношения w_ij в высоком измерении и исправляем w_ij, чтобы найти новые функции (позиции) более низкого измерения, которые также могут быть хорошо представлены.

Что такое T-распределенное стохастическое встраивание соседей?
В предыдущем подходе похожие данные близки, но разные данные могут разрушаться. Чтобы избежать этой проблемы, мы вычисляем сходство между всеми парами в исходном высоком измерении и новом низком измерении. Затем мы находим набор новых представлений, максимально приближающих эти два распределения.