В этой статье мы обсудим лучшие методы и алгоритмы обработки и преобразования данных для достижения максимальной точности моделей машинного обучения.
- Эта статья о некоторых методах, которые помогают нам в обработке и обработке данных.
- Процесс обработки данных помогает нам преобразовывать категориальные данные в числовые данные, потому что алгоритмы понимают только числовые значения, и это будет предметом обсуждения в этой статье в дополнение ко многим другим методам обработки данных.
- Вы можете найти данные и код здесь.
Обработка данных — это задача преобразования данных из заданной формы в гораздо более удобную и желаемую форму, т. е. сделать их более содержательными и информативными.
Давайте рассмотрим некоторые проблемы, с которыми мы сталкиваемся при обработке данных.
1 — преобразовать категориальные строковые данные в числовые.
Наборы данных имеют как числовые, так и категориальные характеристики. Категориальные признаки относятся к строковым типам данных и могут быть легко поняты людьми. Однако машины не могут интерпретировать категориальные данные напрямую. Поэтому категориальные данные должны быть преобразованы в числовые данные для дальнейшей обработки.
У нас есть много методов, которые помогают нам преобразовывать текстовые данные в цифровые данные, и мы обратимся ко многим методам с использованием языка Python, а также будем использовать алгоритмы, предназначенные для этой проблемы.
Здесь, в этой статье, мы обсудим наиболее используемые методы, а именно:
- Функция отображения.
- Применить функцию.
- Замена.
- Dummy Variable Encoding (одно горячее кодирование).
- Кодировка этикетки.
Одна горячая кодировка
Одно горячее кодирование — это метод, используемый для представления категориальных переменных в виде числовых значений в модели машинного обучения.
Вывод после горячего кодирования данных выглядит следующим образом:
В этом методе есть проблема, которая заключается в увеличении количества функций, если столбец содержит много значений, например, на картинке в столбце города много значений, если мы используем этот метод, каждое значение будет иметь столбец в столбце. данные и, таким образом, размер данных резко возрастет.
Одно горячее кодирование — хороший метод, когда значения в столбце малы.
Функция сопоставления в питоне.
Map() в Python — это встроенная функция, которая позволяет обрабатывать и преобразовывать все элементы в итерируемом объекте без использования явного цикла for — техники, широко известной как сопоставление.
Map() полезен, когда вам нужно применить функцию преобразования к каждому элементу в итерируемом объекте и преобразовать их в новый итерируемый объект.
Мы будем использовать эту функцию для преобразования и замены категориальных значений числовыми значениями через код Python, посмотрим.
В этом столбце у нас много значений, с помощью функции карты мы заменяем каждое значение категории числовым значением.
Применить функцию.
Метод Применить(). Эта функция действует как функция map() в Python. Он принимает функцию в качестве входных данных и применяет эту функцию ко всему DataFrame.
У нас есть много значений в этом столбце, и вы хотите преобразовать их в числовые значения. Мы создадим функцию, которая поможет нам преобразовать каждое числовое значение в числовое значение, как показано на первом изображении.
Используя функцию применения, мы применим к столбцу первую функцию, которая вызвала fix_Retailer, чтобы преобразовать ее в числовое значение.
Кодировка этикетки.
Кодирование меток означает преобразование меток в числовую форму, чтобы преобразовать их в машиночитаемую форму. Алгоритмы машинного обучения могут затем лучше решить, как должны работать эти метки.
Это важный этап предварительной обработки структурированного набора данных в обучении с учителем.
Этот алгоритм помогает нам быстро преобразовывать категориальные данные, и он очень полезен в случае много значений в столбце, мы вызываем алгоритм из sklearn.preprocessing и применяем алгоритм к столбцу, который мы хотим преобразовать значения внутри него в числовые значения.
Заключение.
В этой статье мы рассказали о том, как преобразовать категориальные значения в числовые значения, используя множество методов. Конечно, есть много других методов, но эта статья была введением в эту проблему, которая нас сильно беспокоит. Я надеюсь, что вы извлекли пользу из статьи и ждите много задач и статей в ближайшем будущем. Желаем удачи, дорогая.