Тема 1: Стандартизация и нормализация

Стандартизация

Стандартизация — это метод преобразования переменных таким образом, чтобы их среднее значение равнялось нулю, а стандартное отклонение — единице. Это также известно как центрирование и масштабирование данных. Стандартизация часто используется в качестве этапа предварительной обработки в машинном обучении, чтобы убедиться, что все переменные имеют одинаковый масштаб и одинаковую важность в модели.

Стандартизация может быть выполнена путем вычитания среднего значения переменной из каждой точки данных и последующего деления его на стандартное отклонение. Таким образом, все переменные будут иметь одинаковый масштаб, и модели будет легче сходиться.

Важно отметить, что стандартизацию следует применять только к непрерывным переменным. Для категориальных переменных следует использовать одноразовое кодирование или фиктивное кодирование.

Нормализация

Нормализация — это метод масштабирования переменной до фиксированного диапазона, обычно от 0 до 1. Нормализация обычно используется, когда масштаб переменной неизвестен или когда переменная имеет неравномерное распределение. Этот метод помогает привести все переменные к одному масштабу, и модели будет легче сходиться.

Нормализация может быть выполнена путем вычитания минимального значения переменной из каждой точки данных и последующего деления его на диапазон (разницу между минимальным и максимальным значениями). Таким образом, все переменные будут иметь диапазон от 0 до 1.

Важно отметить, что нормализация отличается от стандартизации в том смысле, что нормализация приводит все переменные в одну и ту же шкалу в диапазоне от 0 до 1, тогда как стандартизация приводит все переменные в шкалу среднего 0 и стандартного отклонения 1. Как и стандартизация, нормализация также должна применяться только к непрерывным переменным. Для категориальных переменных следует использовать одноразовое кодирование или фиктивное кодирование.

Различие между нормализацией и стандартизацией

Нормализация и стандартизация — два распространенных метода, используемых для масштабирования переменных в машинном обучении. Оба метода используются, чтобы убедиться, что все переменные имеют одинаковый масштаб и одинаковое значение в модели. Тем не менее, между этими двумя методами есть некоторые ключевые различия:

Нормализация масштабирует переменную до фиксированного диапазона, обычно от 0 до 1. Она часто используется, когда масштаб переменной неизвестен или переменная имеет неравномерное распределение.
Стандартизация масштабирует переменную таким образом, чтобы среднее значение равнялось нулю, а стандартное отклонение равнялось единице. Он часто используется в качестве этапа предварительной обработки в машинном обучении, чтобы убедиться, что все переменные имеют одинаковый масштаб и одинаковую важность в модели.
Нормализация чувствительна к выбросам, поскольку она изменяет исходное распределение переменной. С другой стороны, стандартизация нечувствительна к выбросам.
Нормализация используется, когда переменная имеет неравномерное распределение, тогда как стандартизация используется, когда переменная имеет нормальное распределение.
Нормализация используется для переменной, имеющей диапазон от 0 до любого положительного числа, тогда как стандартизация используется для переменной, имеющей диапазон от -бесконечности до бесконечности.

Стандартизация — это мощный метод, который может помочь вам максимально эффективно использовать ваши данные. Это позволяет вам брать необработанные данные и преобразовывать их в формат, который легче понять, проанализировать и сравнить.

Как определить, стандартизированы ли наши данные?

Есть несколько способов определить, являются ли ваши данные стандартизованными:

Среднее значение и стандартное отклонение. После стандартизации данных среднее значение переменной должно быть равно нулю, а стандартное отклонение — единице. Вы можете вычислить эти значения, используя функции mean() и std() в Python или аналогичные функции в других языках программирования.
Распределение. Распределение стандартизированных данных должно быть нормальным распределением, также известным как распределение Гаусса. Вы можете построить данные с помощью гистограммы или функции плотности вероятности (PDF), чтобы увидеть, имеют ли они нормальное распределение.
Минимальные-максимальные значения.При стандартизации переменной она будет иметь минимальное значение -3 и максимальное значение 3, если данные стандартизированы с использованием метода z-оценки. . Таким образом, вы можете проверить, попадают ли минимальные и максимальные значения переменной в этот диапазон.
Использование встроенных функций В некоторых библиотеках, таких как scikit-learn, есть встроенные функции, которые можно использовать для стандартизации данных. Такие функции, как StandardScaler() или MinMaxScaler(), можно использовать для стандартизации данных.

Краткое содержание

Стандартизация и нормализация — два тесно связанных термина в науке о данных и машинном обучении, которые относятся к процессу преобразования данных в общий формат, чтобы их можно было легко сравнивать и анализировать. Стандартизация обычно включает изменение масштаба значений данных, чтобы все они имели одинаковое среднее значение и стандартное отклонение, а нормализация относится к процессу изменения масштаба значений данных, чтобы все они имели одинаковый диапазон, обычно от 0 до 1. Часто используются стандартизация и нормализация. взаимозаменяемы, но важно помнить, что это разные процессы, которые используют разные методы и имеют разные приложения. Стандартизация часто используется при работе с переменными, имеющими разные масштабы, такими как возраст, зарплата и рост, тогда как нормализация часто используется для переменных, имеющих одинаковую шкалу, таких как проценты.

Хотя я не являюсь экспертом в этой области, я делюсь с вами своими знаниями. Если вам нравятся мои заметки, поддержите меня, чтобы я делал больше таких заметок.

Найдите меня здесь:

👉 GitHub: https://github.com/Birjesh786

👉 Linkedin: https://www.linkedin.com/in/brijeshsoni007/

👉 Сводка профиля: https://sonibri786.wixsite.com/brijeshsoni