В этой статье мы обсудим лучшие методы и алгоритмы обработки и преобразования данных для достижения максимальной точности моделей машинного обучения.

  • Эта статья о некоторых методах, которые помогают нам в обработке и обработке данных.
  • Процесс обработки данных помогает нам преобразовывать категориальные данные в числовые данные, потому что алгоритмы понимают только числовые значения, и это будет предметом обсуждения в этой статье в дополнение ко многим другим методам обработки данных.
  • Вы можете найти данные и код здесь.

Обработка данных — это задача преобразования данных из заданной формы в гораздо более удобную и желаемую форму, т. е. сделать их более содержательными и информативными.

Давайте рассмотрим некоторые проблемы, с которыми мы сталкиваемся при обработке данных.

1 — преобразовать категориальные строковые данные в числовые.

Наборы данных имеют как числовые, так и категориальные характеристики. Категориальные признаки относятся к строковым типам данных и могут быть легко поняты людьми. Однако машины не могут интерпретировать категориальные данные напрямую. Поэтому категориальные данные должны быть преобразованы в числовые данные для дальнейшей обработки.

У нас есть много методов, которые помогают нам преобразовывать текстовые данные в цифровые данные, и мы обратимся ко многим методам с использованием языка Python, а также будем использовать алгоритмы, предназначенные для этой проблемы.

Здесь, в этой статье, мы обсудим наиболее используемые методы, а именно:

  • Функция отображения.
  • Применить функцию.
  • Замена.
  • Dummy Variable Encoding (одно горячее кодирование).
  • Кодировка этикетки.

Одна горячая кодировка

Одно горячее кодирование — это метод, используемый для представления категориальных переменных в виде числовых значений в модели машинного обучения.

Вывод после горячего кодирования данных выглядит следующим образом:

В этом методе есть проблема, которая заключается в увеличении количества функций, если столбец содержит много значений, например, на картинке в столбце города много значений, если мы используем этот метод, каждое значение будет иметь столбец в столбце. данные и, таким образом, размер данных резко возрастет.

Одно горячее кодирование — хороший метод, когда значения в столбце малы.

Функция сопоставления в питоне.

Map() в Python — это встроенная функция, которая позволяет обрабатывать и преобразовывать все элементы в итерируемом объекте без использования явного цикла for — техники, широко известной как сопоставление.

Map() полезен, когда вам нужно применить функцию преобразования к каждому элементу в итерируемом объекте и преобразовать их в новый итерируемый объект.

Мы будем использовать эту функцию для преобразования и замены категориальных значений числовыми значениями через код Python, посмотрим.

В этом столбце у нас много значений, с помощью функции карты мы заменяем каждое значение категории числовым значением.

Применить функцию.

Метод Применить(). Эта функция действует как функция map() в Python. Он принимает функцию в качестве входных данных и применяет эту функцию ко всему DataFrame.

У нас есть много значений в этом столбце, и вы хотите преобразовать их в числовые значения. Мы создадим функцию, которая поможет нам преобразовать каждое числовое значение в числовое значение, как показано на первом изображении.

Используя функцию применения, мы применим к столбцу первую функцию, которая вызвала fix_Retailer, чтобы преобразовать ее в числовое значение.

Кодировка этикетки.

Кодирование меток означает преобразование меток в числовую форму, чтобы преобразовать их в машиночитаемую форму. Алгоритмы машинного обучения могут затем лучше решить, как должны работать эти метки.

Это важный этап предварительной обработки структурированного набора данных в обучении с учителем.

Этот алгоритм помогает нам быстро преобразовывать категориальные данные, и он очень полезен в случае много значений в столбце, мы вызываем алгоритм из sklearn.preprocessing и применяем алгоритм к столбцу, который мы хотим преобразовать значения внутри него в числовые значения.

Заключение.

В этой статье мы рассказали о том, как преобразовать категориальные значения в числовые значения, используя множество методов. Конечно, есть много других методов, но эта статья была введением в эту проблему, которая нас сильно беспокоит. Я надеюсь, что вы извлекли пользу из статьи и ждите много задач и статей в ближайшем будущем. Желаем удачи, дорогая.