Предварительная обработка данных для машинного обучения

Предварительная обработка данных - очень важная часть машинного обучения, потому что мы действительно создаем модель машинного обучения, над которой всегда нужно работать с предварительной обработкой данных.

Мы должны правильно обрабатывать данные, чтобы созданная нами модель машинного обучения могла правильно обучаться на данных и давать результаты с высокой точностью.

Этапы предварительной обработки данных:

Шаг 1: Импорт библиотек

Шаг 2: Импорт данных

Шаг 3. Как решить проблему отсутствия данных

Шаг 4: Кодирование категориальных данных

Шаг 5: Разделение набора данных на обучающий набор и тестовый набор

Шаг 6: Масштабирование функций

Библиотеки, используемые при предварительной обработке данных:

NumPy

NumPy - это универсальный пакет для обработки массивов. Он предоставляет высокопроизводительный объект многомерного массива и инструменты для работы с этими массивами.

Это фундаментальный пакет для научных вычислений с Python. Среди прочего он содержит:

мощный объект N-мерного массива
сложные (широковещательные) функции
инструменты для интеграции кода C / C ++ и Fortran
полезные возможности линейной алгебры, преобразования Фурье и случайных чисел

Matplotlib

Matplotlib - это библиотека, которая позволяет нам строить очень красивые диаграммы .

Matplotlib - это библиотека для построения 2D-графиков Python, которая выдает показатели качества публикации в различных форматах печатных копий и в интерактивных средах на разных платформах.

Панды

Pandas - это открытый исходный код, эта библиотека предоставляет высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для языка программирования Python. . Pandas означает «Библиотека анализа данных Python».

Зачем использовать панды?

Что круто в Pandas, так это то, что он берет данные (например, файл CSV, TSV или базу данных SQL) и создает объект Python со строками и столбцами, называемый фрейм данных, который очень похож на таблицу в статистическом программное обеспечение.

Импорт данных

Импорт набора данных на Python выполняется с использованием библиотеки pandas.

Во-первых, мы должны создать переменную для данных, чтобы сохранить ее для дальнейшего использования.
После этого мы создадим две новые сущности, первая из которых - это функция матрицы, а вторая - вектор зависимой переменной.

Уход за недостающими данными

Как правило, у нас нет недостающих данных в наборе данных по простым причинам, так как это вызывает ошибку при обучении модели машинного обучения, и поэтому мы должны позаботиться о них.

Есть определенные способы обработки недостающих данных:

Просто игнорируйте наблюдение, удалив его, и оно работает только тогда, когда у нас есть большой набор данных, и у нас примерно 1% отсутствующих данных. Поэтому, если мы удалим его, это не повлияет на качество обучения модели.
Замените отсутствующие данные или отсутствующее значение средним значением в столбце, в котором данные отсутствуют. Для этого существуют библиотеки типа Scikit-Learn library и др.

Scikit learn - потрясающая библиотека для науки о данных, которая содержит большие инструменты и множество моделей машинного обучения. Итак, для обработки недостающих данных в scikit learn есть класс, то есть Imputer. Использование класса Imputer может решить проблему с недостающими данными.

Кодирование категориальных данных

Порядковое кодирование включает отображение каждой уникальной метки в целочисленное значение.

Двумя наиболее популярными методами являются целочисленное кодирование и одно горячее кодирование.

Для модели машинного обучения будет сложно вычислить некоторую корреляцию между столбцами, о которых вы знаете, и результатом, который является зависимой переменной, и поэтому вам придется преобразовать эти категории в числа.

Мы будем кодировать независимую и зависимую переменную с помощью библиотеки Scikit-Learn ~

По существу, это иногда называют просто целочисленным кодированием.

Этот тип кодирования действительно подходит только в том случае, если существует известная взаимосвязь между категориями.

Разделение набора данных на обучающий набор и тестовый набор

В машинном обучении мы обычно разделяем наши данные на два подмножества: данные обучения и данные тестирования, мы подгоняем нашу модель к данным поезда, чтобы делать прогнозы на основе данных тестирования.

Набор обучающих данных содержит известные выходные данные, и модель учится на этих данных, чтобы впоследствии обобщить их на другие данные. У нас есть тестовый набор данных, чтобы проверить предсказание нашей модели на этом наборе данных или, скажем, подмножестве.

Мы сделаем это с помощью библиотеки Scikit-Learn и, в частности, метода train_test_split.

Масштабирование функций

Масштабирование функций в машинном обучении - один из наиболее важных этапов предварительной обработки данных перед созданием модели машинного обучения.

Масштабирование может помочь вам отличить слабую модель машинного обучения от лучшей.

Наиболее распространенными методами масштабирования функций являются нормализация и стандартизация.

Это общие 6 шагов предварительной обработки данных перед их использованием для машинного обучения.

Это все, что касается предварительной обработки данных в машинном обучении. Следите за новостями в следующих блогах.

Спасибо

Внедрение предварительной обработки данных в наборе данных о раке молочной железы ~

Https://github.com/Navu4/Machine-Learning