Сделайте свой путь к лучшему завтра

Математика: хорошо поставленные задачи

Наука о данных зависит от математики, а математика обычно ориентирована на ситуации, когда:

  1. Решение существует
  2. Решение уникальное
  3. Поведение решения постоянно меняется в зависимости от начальных условий.

Они известны как хорошо поставленные задачи, и представляют собой разновидности допущений, которые настолько важны в традиционных методах, что о них легко забыть.

Но они имеют значение, так как могут быть исключения:

  1. Нет решения
  2. Несколько решений
  3. «Хаотические» системы - ситуации, когда небольшие изменения в начальных условиях взаимодействуют и отражаются по существу непредсказуемым образом (например, сложность долгосрочных прогнозов погоды, поскольку модели не могут быть обобщены, потому что они чрезмерно соответствуют обучающим данным или начальным условиям)

Проблемы, страдающие от вышеуказанного, называются некорректно поставленными проблемами. Что касается линейной алгебры и систем уравнений, единственные действительно корректно поставленные задачи - это те, у которых есть единственное уникальное решение.

Обобщение против переобучения

Многое из того, что мы рассмотрели с помощью линейной регрессии, было связано с приведением матриц в правильную форму, чтобы их можно было решить в этом смысле. Но некоторые матрицы просто не подчиняются этому, а другие проблемы могут технически «соответствовать» линейной регрессии, но все же тонко нарушать вышеприведенные допущения.

Переобучение в некотором смысле является частным случаем этого - модель переобучения использует больше функций / параметров, чем оправдано данными (по сути, размерностью данных, измеряемой числом наблюдений). По мере того, как количество функций приближается к количеству наблюдений, линейная регрессия все еще работает, но начинает давать довольно неверные результаты. В частности, это приводит к модели, которая не может обобщить, а цель предсказания и объяснения оказывается подорванной.

Как это связано с хорошо и некорректно поставленными проблемами? Это не однозначно случай отсутствия решения или нескольких решений, но он попадает в третью категорию - переобучение приводит к подгонке к «шуму» в данных, что означает, что детали той или иной случайной выборки (разные начальные условия) приведут к в кардинально разных моделях.

Обобщение в машинном обучении

Цель машинного обучения - создать модель, которая может хорошо предсказывать новые данные, которых он никогда раньше не видел. Иногда это называют «выходом за пределы точности выборки». Это то, что мы моделируем, когда проводим сплит-поезд-тест.

Мы подгоняем нашу модель к набору обучающих данных, а затем проверяем ее способность к обобщению, оценивая ее точность на тестовом наборе данных. Нам нужны модели, которые можно будет использовать с новыми данными неограниченное время. Мы можем обучить их один раз и пожинать плоды точных прогнозов на долгое время.

Регуляризация

Регуляризация означает просто «добавление предвзятости». Это еще не все, но это основная интуиция.

Наша модель работает «слишком хорошо», поэтому мы исправляем ее, усложняя модель! Техника, которая намеренно «хуже», на самом деле может дать лучшие результаты.

В контексте статистики и машинного обучения смещение - это когда прогнозная модель не может определить взаимосвязь между функциями и выходными данными. Одним словом, предвзятость недопустима.

Мы хотим добавить смещение к модели из-за компромисса смещения и дисперсии - дисперсия - это чувствительность модели к случайному шуму в ее обучающих данных (т. Е. чрезмерная подгонка), а смещение и дисперсия естественным образом (обратно) связана. Увеличение одного всегда будет уменьшать другое, что касается общей ошибки обобщения (точность прогноза для невидимых данных).

Вот несколько формул регуляризации:

Термины регуляризации обычно бывают двух разных типов, которые называются L2 и L1. В то время как термин L2 - это евклидово расстояние между началом координат и положением, в котором веса модели расположены в многомерном пространстве, термин L1 относится к тому же самому, за исключением метода вычисления расстояния, которое на самом деле является манхэттенским расстоянием. На рисунке ниже условия регуляризации L2 и L1 показаны с функциями потерь логистической регрессии и линейной регрессии соответственно.

Если вы впервые слышите о таких концепциях, как регуляризация, регрессия гребня (L2) или регрессия лассо (L1), я настоятельно рекомендую посмотреть видео ниже из StatQuest (которые отлично подходят для развития интуиции!):

Спасибо за прочтение!

Если вам понравилось, подпишитесь на меня на Medium, чтобы узнать больше. Это отличное кардио для 👏 И поможет другим людям увидеть историю.

Если вы хотите и дальше получать статьи этого типа, вы можете поддержать меня, став Средним подписчиком.