Операции предварительной обработки данных

1. Выбросы

выброс — это точка данных, которая значительно отличается от других наблюдений. Выброс может вести себя нормально для определенной переменной, но иметь действительно специфическое поведение для другой переменной или переменных. По этой причине обнаружение выбросов иногда может быть затруднено. Очень важно иметь дело с большим количеством выбросов при обнаружении выбросов.

Выброс может рассматриваться как ошибка измерения или типографская ошибка и, следовательно, может быть удален. Однако обычно это фактические значения набора данных. В этом случае, если выброс будет удален, изменчивость данных уменьшится и может привести к тому, что созданная модель не даст правильного прогноза.

В последние годы были разработаны надежные статистические модели для работы с выбросами. Если вам интересно, как разработать более точные модели при наличии выбросов, вы можете поискать надежные статистические методы.

2. Отсутствующие значения

В науке о данных отсутствующие значения кажутся самыми простыми. но это, наверное, самая сложная тема. Потому что очень важно назначать пропущенные значения близко к их истинным значениям. Для этого нет установленного правила или метода. Метод, который будет применяться, полностью зависит от усмотрения исследователя. среднее значение, мода, медиана и т. д. Можно выполнять простые назначения. или отсутствующая переменная наблюдения может оцениваться как зависимая переменная и оцениваться с помощью регрессии, деревьев решений или других методов. а затем вы можете вернуться к исходной работе. Трудно сказать, какой метод лучше. Иногда простое присвоение среднего значения может быть лучшим решением.

Поскольку метод присвоения пропущенного значения зависит от субъективного суждения, трудно изучить его влияние на статистическую процедуру.

3. Масштабирование кодирования

Кодировка ярлыка

Переменные в наборе данных могут содержать одну или несколько меток. Эти метки могут быть в виде строк или чисел. Это процесс преобразования меток в числовую форму, чтобы сделать их более машиночитаемыми.

Пример; Это процесс кодирования значений переменных, содержащих значения [‘высокий’, ‘средний’, ‘короткий’] как [0,1,2].

Горячее кодирование

В ситуации, когда данные не имеют никакого отношения друг к другу. Алгоритмы машинного обучения рассматривают порядок целых чисел как важную характеристику. Другими словами, большее число будет интерпретироваться как лучшее или более значимое, чем меньшее число.

Хотя это полезно в некоторых порядковых сценариях, в некоторых входных данных отсутствует ранжирование значений категорий, что может вызвать проблемы с прогнозами и производительностью. Вот почему мы используем однократное кодирование.

В этом методе связанная переменная удаляется, а уникальные наблюдения этой переменной назначаются как двоичные переменные. и эти новые переменные состоят из значений [0, 1].

Редкая кодировка

Это процесс создания ярлыка под названием «редкий» для редких наблюдений, встречающихся в категориальных переменных.

Например, если процент наблюдения для бордовых, голубых, бирюзовых меток цветовой переменной составляет ‹5%, эти значения можно заменить меткой с «редким» именем.

4. Масштабирование функций

Машинное обучение похоже на приготовление фруктового сока. Если мы хотим получить лучший смешанный сок, нам нужно смешивать все фрукты не по их размеру, а исходя из их правильной пропорции.

Масштабирование функций в машинном обучении — один из наиболее важных этапов предварительной обработки данных перед созданием модели машинного обучения. Масштабирование может иметь значение между слабой моделью машинного обучения и лучшей.

Макс-Мин/ Нормализация

Нормализация используется, когда мы хотим связать наши значения между двумя числами, обычно между [0,1] или [-1,1].

Стандартизация

Это процесс преобразования данных в нулевое среднее и 1 дисперсию в соответствии с z-оценкой.

Надежный масштабатор

Это случай использования MADN вместо среднего стандартного отклонения вместо среднего в формуле стандартизации. Это может быть предпочтительным в случае выброса значения.

Масштабирование до единицы длины

Это процесс деления наблюдений на евклидову длину переменной для масштабирования переменной так, чтобы длина вектора равнялась 1.

Спасибо за прочтение!

Вы можете найти мою учетную запись linkedin здесь.

Ссылки

Байджаянта Рой, https://towardsdatascience.com/all-about-feature-scaling-bcc0ad75cb35, 2023 г.

bigdata, Плюсы и минусы разработки функций, https://bigdataanalyticsnews.com/pros-cons-of-feature-engineering/, 2023 г.

Тим Бок, Как работать с пропущенными значениями в кластерном анализе, https://www.displayr.com/deal-missing-values-cluster-analysis/, 2023 г.

Ритика Сингх, Все о выбросах, https://medium.com/analytics-vidhya/its-all-about-outliers-cbe172aa1309, 2023 г.

Аманда Фосетт, Наука о данных за 5 минут: что такое горячее кодирование?, https://www.educative.io/blog/one-hot-encoding, 2023 г.

Танвир Хан, КАТЕГОРИЧЕСКОЕ КОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ LABEL ENCODING, https://ai-ml-analytics.com/categorical-encoding-label-encoding/, 2023 г.

Джордж Новак, Создание одного слоя горячего кодирования с помощью TensorFlow, https://towardsdatascience.com/building-a-one-hot-encoding-layer-with-tensorflow-f907d686bf39, 2023 г.

Ашок Кумар Паливела, Разработка функций с помощью Feature Engine, https://ashokpalivela.medium.com/feature-engineering-with-feature-engine-part-1-828d0906e21e, 2023 г.

Selim DÖNMEZ ve Özer ÖZAYDIN, Robust Arıma Modeli İle Yapay Sinir Ağları Modelinin Kıyaslanması: Turizm Örneği, Dumlupınar Üniversitesi Fen bilimleri Enstitüsü, 2018, sayı 40

Абдулкадир Йигит, Предварительная обработка данных, https://rockndata.com/data-processing/, 2021 г.