Обработка отсутствующих данных — Предварительная обработка данных

Чтобы было понятно, будем реализовывать с библиотекой(sklearn) и без нее.

С библиотекой:

Шаг 1 — Импорт библиотеки

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Шаг 2. Импорт набора данных

dataset = pd.read_csv("your_file_path")
X = dataset.iloc[:,:-1].values
y = dataset.iloc[:,-1].values   #Here let's not worry about Y

Шаг 3. Просмотрите недостающие данные

Шаг 4. Работа с библиотекой

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan,strategy = 'mean')
imputer.fit(X[:,1:3])
X = imputer.transform(X[:,1:3])

Библиотека sklearn предоставляет класс SimpleImputer для обработки отсутствующих данных, здесь именованный аргументmissing_values принимает тип отсутствующего значения, а стратегия определяет, какую математическую операцию необходимо выполнить.

Подробнее о SimpleImputer — https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html

Здесь мы видим, что значение заполнено средним значением зарплаты.

Обработка отсутствующих данных — Предварительная обработка данных

Вопросы по теме