Концепции машинного обучения

Искусственный интеллект –интеллект, продемонстрированный машинами, характерный для людей.

Машинное обучение.Распознавайтепаттерн в данных, автоматически учитесь и совершенствуйтесь на основе опыта без явного программирования.

Глубокое обучение —отдел машинного обучения. Нам приходится иметь дело с большим количеством данных, поэтому в этом случае проблемы не могут быть решены с помощью простых алгоритмов ML. Мы должны использовать различные методы, такие как нейронные сети.

Типы алгоритмов машинного обучения:-

1 Под наблюдением — мы присваиваем ярлыки и функции и обучаем модель. Теперь модель учится на этом и генерирует модель, а затем на основе этой модели мы генерируем выходные данные для тестовых данных.

2 Без контроля — мы не присваиваем ярлыки, мы только присваиваем функции. И исходя из этой особенности и конкретного выбранного алгоритма. Этот алгоритм создаст несколько групп, и на их основе мы получим выходные данные для тестов.

3 Подкрепление — у нас есть функция поощрения, если модель делает правильный выбор, мы вознаграждаем, иначе налагаем штраф. Exa — производитель aws sega.

Полууправляемое обучение – сочетание контролируемого и неконтролируемого обучения. У нас есть метки для некоторых функций, но мы оставляем другие функции без меток.

Типы контролируемого алгоритма машинного обучения

1 Регрессия — это алгоритм обучения с учителем, который используется для непрерывного прогнозирования данных.

Типы регрессии —

Линейная регрессия — находит линейную связь с заданными метками и функциями.

Логистическая регрессия. На самом деле это не регрессия, поскольку она используется для категорийных данных для классификации, такой как бинарная классификация (да или нет).

Наивный байесовский алгоритм — это простой вероятностный классификатор, основанный на условной вероятности (теореме Бэйса). Он использует метод максимального правдоподобия.

Машина опорных векторов (SVM) – отображает примеры в виде точек в пространстве (при необходимости больших размеров). Теперь предполагается, что новые тестовые примеры относятся к категории.

KNN(K ближайших соседей) —составляем группы на основе схожести входных данных. Мы измеряем класс/группы его k ближайших соседей и на основе их групп определяем его группу (его можно использовать как для регрессии, так и для классификации)

Дерево принятия решений. создает модель, которая предсказывает значение целевой переменной путем изучения простых правил принятия решений, полученных на основе входных признаков.

Нейронные сети —это набор алгоритмов, которые распознают отношения в заданных входных данных и имитируют поведение человека.

Как и в нашем человеческом мозге, в котором есть миллиарды нейронов, связанных друг с другом, в нейронной сети каждый узел связан с другим слоем.
Обычно мы используем нейронные сети в задачах глубокого обучения, потому что в глубоком обучении у нас есть огромные данные, и очень трудно увидеть закономерности.

Случайный лес — как следует из названия, это набор большого количества деревьев решений. Каждое отдельное дерево предсказывает класс, и класс с наибольшим количеством голосов будет нашим прогнозом (так же, как KNN).

Неконтролируемый алгоритм машинного обучения

Кластеризация: создание групп на основе схожести данных.

К означает кластеризацию. Как мы знаем, неконтролируемое машинное обучение само видит шаблоны. В этом алгоритме мы определяем k, который определяет количество центроидов в наборе данных, а затем распределяем каждую точку данных по ближайшему кластеру, сохраняя при этом центроид как можно меньше.

Теперь основные понятия -

Матрица путаницы –это способ оценить эффективность классификатора.

Другая терминология –

Точность —TP/(TP+FP)

Отзыв —TP/(TP+FN)

Оценка F1 — гармоническое среднее значение точности и полноты.

2/F = 1/точность + 1/отзыв

Альфа-бета-обрезка —минимаксный алгоритм. Мы просто не посещаем части деревьев, если они не удовлетворяют какому-то условию.

Недообучение.Модель дает низкую производительность на обучающих данных.

Переобучение. Модель слишком многому научилась на обучающих данных. Теперь он плохо обобщает тестовый набор данных и дает плохие результаты на тестовом наборе данных.

Смещение –высокое смещение означает недостаточное соответствие набору обучающих данных.

Дисперсия –высокая дисперсия означает переобучение обучающего набора данных и теперь дает плохие результаты на тестовом наборе данных.

Гиперпараметры — параметр, значение которого используется для управления процессом обучения.

Скорость обучения — это параметр настройки в алгоритме оптимизации, который определяет размер шага для достижения глобального минимума.

Алгоритмы оптимизации-

Градиентный спуск —алгоритм оптимизации, используемый для минимизации нашей функции стоимости. На каждом шаге мы повторяем нашу функцию стоимости и пытаемся найти локальный минимум.

Возьмем аналогию с человеком на холме, если он хочет спуститься (достичь глобального минимума), поэтому сначала ему нужно сделать крошечные шаги вниз (достичь локального минимума). Тогда он может достичь глобального мин.

Проблема с градиентным спуском: доступ к глобальному минимуму может быть очень медленным, если существует несколько локальных минимумов, то нет гарантии, что мы найдем глобальный минимум.

Стохастический градиентный спуск (SGD). В G.D мы делаем одно обновление для определенного параметра для итерации, но в SGD мы используем только один или подмножество обучающих примеров для обновления параметров для итерации. SGD сходится быстрее, чем GD.

RMSProp-алгоритм полной пакетной оптимизации. Он сочетает в себе идею использования только знака градиента с идеей индивидуальной адаптации размера шага для каждого веса.

Кроссэнтропийная потеря:также называемаяпотеря энтропии или потеря журнала, измеряет производительность модели классификации, выходной результат которой представляет собой значение вероятности от 0 до 1. Кросс- потеря энтропии увеличивается по мере того, как прогнозируемая вероятность отличается от фактической метки.

Функция активации.это функция, которая добавляется в нейронную сеть, чтобы лучше понять структуру данных. Он также решает, вносит ли конкретный узел вклад (активируется или нет) или нет на основе прогноза модели.

Проблема исчезающего градиента.проблема исчезающего градиента возникает при обучении искусственных нейронных сетей методами обучения на основе градиента и обратным распространением.

Это связано с используемой нами функцией активации (сигмовидной, тангенциальной, так как они имеют малый радиус действия). Это приводит к путанице в том, в каком направлении он должен двигаться, и поэтому не приводит к обучению.

Решение использует функцию активации relu.

Проблема долговременной зависимости: он запоминает вещи, которые больше не актуальны.

Другая функция активации

Линейный простой y=x

Нелинейный-

Сигмоид-y=1/(1+e^(-x)) r ange(0,1)

Tanh-y=(e^x -e^-x)/(e^x+e^-x) диапазон (-1,1)

Softmax- обычно используется на уровне вывода. Это дает вероятностное распределение, которое хорошо подходит для задачи классификации.

у = е ^ х / сумма (е ^ xi, 0, я)

Relu(выпрямленная линейная единица)-max(0,x) диапазон(0,x)

Утечка относительноmax(0,01x,x)

Типы нейронных сетей-

Сверточная нейронная сеть (CNN).это алгоритм глубокого обучения, который берет входное изображение и преобразует его в вектор признаков.

Но CNN вычислительно эффективна. Роль CNN состоит в том, чтобы преобразовать изображения в форму, которую легче обрабатывать без потери характеристик для получения хорошего прогноза.

Слои в CNN-

Сверточный слой.Свертка сохраняет взаимосвязь между пикселями, изучая особенности изображения с помощью небольших квадратов входных данных.

Шаги.Шаг – это количество пикселей, сдвинутых по входной матрице.

Заполнение — некоторые фильтры могут не подходить идеально, мы либо можем добавить 0 (заполнение нулями), либо будет изменена размерность вывода.

Объединение слоев – уменьшите количество параметров, если входное изображение слишком велико.

Полностью подключенный слой.послевыравнивания вывода этот слой создаст вероятностное распределение нашего вывода с использованием функции активации, такой как softmax. Что дополнительно помогает классифицировать изображения.

#

Рекуррентные нейронные сети (RNN).RNN учатся аналогичным образом во время обучения, кроме того, они помнят то, что узнали из предыдущего ввода, при создании вывода.

Проблема с обычным RNN. RNN страдает от двух проблем. он запоминает вещи, которые больше не актуальны (проблема долгосрочной зависимости), или градиент становится слишком маленьким, чтобы не выполнять обучение (проблема исчезающего градиента).

Решение LSTM

LSTM (оболочка долговременной кратковременной памяти) — особый вид RNN, в котором мы используем разные ворота, чтобы запоминать или выбрасывать информацию. Следовательно, LSTM способны изучать долгосрочные зависимости. Они устраняют проблему долгосрочной зависимости.