Чтобы было понятно, будем реализовывать с библиотекой(sklearn) и без нее.
С библиотекой:
Шаг 1 — Импорт библиотеки
import pandas as pd import numpy as np import matplotlib.pyplot as plt
Шаг 2. Импорт набора данных
dataset = pd.read_csv("your_file_path") X = dataset.iloc[:,:-1].values y = dataset.iloc[:,-1].values #Here let's not worry about Y
Шаг 3. Просмотрите недостающие данные
Шаг 4. Работа с библиотекой
from sklearn.impute import SimpleImputer imputer = SimpleImputer(missing_values = np.nan,strategy = 'mean') imputer.fit(X[:,1:3]) X = imputer.transform(X[:,1:3])
Библиотека sklearn предоставляет класс SimpleImputer для обработки отсутствующих данных, здесь именованный аргументmissing_values принимает тип отсутствующего значения, а стратегия определяет, какую математическую операцию необходимо выполнить.
Подробнее о SimpleImputer — https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html
Здесь мы видим, что значение заполнено средним значением зарплаты.