Главное, что приходит при выборе алгоритма для задачи машинного обучения, - это предвзятость и дисперсия. Это как протон и электрон в атоме.

Смещение: разница между ожидаемым и правильным значением, которое мы пытаемся предсказать с помощью алгоритма.

Дисперсия: степень, в которой выходные данные модели различаются между разными итерациями тестовых данных (т. е. для каждой итерации теста с разными данными частота ошибок нашей модели увеличивается)

Причина высокой систематической ошибки: неправильный выбор алгоритма (ведет к недобору).

Как уменьшить смещение.? Выберите правильный алгоритм, который подходит для нашего случая использования и дает ожидаемый результат.

Причина высокой дисперсии: переоснащение (модель не является общей, точно соответствует данным обучения)

Как уменьшить дисперсию.? Убедитесь, что данные для обучения и тестирования поступают из одного и того же распределения, исключите выбросы.

Мы должны помнить только об одном: мы не можем легко добиться как низкого смещения, так и низкой дисперсии. Потому что, когда мы пытаемся уменьшить систематическую ошибку, дисперсия будет увеличиваться, и наоборот.

Пояснение к изображению выше:
Данные будут разделены на обучающие и тестовые наборы, и по результатам их перекрестной проверки мы сможем получить их частоту ошибок.

Примеры алгоритмов машинного обучения с низкой дисперсией включают: линейную регрессию, линейный дискриминантный анализ и логистическую регрессию.

Примеры алгоритмов машинного обучения с высокой дисперсией включают: деревья решений, k-ближайших соседей и машины опорных векторов.

Примеры алгоритмов машинного обучения с низким смещением включают: деревья принятия решений, k-ближайших соседей и машины опорных векторов.

Примеры алгоритмов машинного обучения с высоким смещением, включая e: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.