Как подготовить необработанные данные для процесса машинного обучения

На этом этапе мы рассмотрим:

Знания о библиотеке мы будем использовать для работы, обработки и визуализации наших данных.
Так важные вещи мы должны увидеть или найти в данных, прежде чем мы сможем что-то с ними сделать.
Вещи, которые могут поставить под угрозу наши Данные
Что такое категориальные ценности?
Отсутствующие и фиктивные значения в данных.
Что такое выбор функций и масштабирование функций?
Стандартизация и нормализация
Библиотека перекрестной проверки.
Как импортировать набор данных в spyder.

Библиотека, которую мы будем использовать для работы, обработки и визуализации наших данных:

На данный момент мы будем использовать три библиотеки, а именно:

Нампи
Матплотлиб
Панды

Итак, что такое NumPy?

Numpy: Numpy — это библиотека для языка программирования Python для больших многомерных массивов и матриц, а также математические функции высокого уровня для работы с этими массивами.

Если выразить это простыми словами:

«Мы используем NumPy для выполнения математических операций с нашими данными».

Numpy = Математика

Но ждать этого можно только тогда, когда у нас есть возможность манипулировать нашими данными, как мы это делаем — ответ — библиотека pandas.

Pandas: Pandas — это библиотека, написанная на языке Python для управления и анализа. В частности, он предлагает нам манипулировать числовой таблицей и временными рядами.

Проще говоря: Панды помогают нам манипулировать данными.

Панды = манипулирование

Как насчет части визуализации:

Matplotlib: Matplotlib — это библиотека построения графиков для программирования на Python.

Итак, Matplotlib = визуализация

После того, как мы поговорили о библиотеке, давайте поговорим о:

Важные вещи, которые мы должны увидеть или найти в данных, прежде чем мы сможем что-то с ними сделать.

Когда мы получаем данные, они находятся в необработанном виде, что может поставить под угрозу результат нашей модели, поэтому, прежде чем мы сможем что-либо сделать с данными, мы должны очистить эти данные и извлечь из наших данных только важную информацию. Этот шаг называется «ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ».

Вещи, которые могут поставить под угрозу наши Данные

Категориальные значения

Отсутствующие данные

Фиктивная переменная

Выбросы

Категориальные значения. Категориальные значения — это значения, которые могут быть категориями, и этот тип данных может привести к избыточности.

Отсутствующие значения. Когда мы получаем данные в необработанном формате, в большинстве случаев данные содержат некоторые отсутствующие значения. как :

Ловушка фиктивной переменной: условие, при котором две или более переменных сильно коррелированы.

Значения выбросов: выбросы — это те значения набора данных, которые находятся далеко от центральной точки, медианы, но имеют влияние на наш набор данных.

Выбор функций. Выбор функций используется для выбора тех функций, которые вносят наибольший вклад в интересующую нас переменную прогнозирования.

Преимущества выбора функций

1. Уменьшите переобучение, сделав данные менее избыточными.

2. Сокращение времени обучения за счет устранения вводящих в заблуждение данных.

3. Повысьте точность, собрав меньше точек данных.

Как подготовить необработанные данные для процесса машинного обучения

Вопросы по теме