Машинное обучение с учителем стало более доступным для новичков

Лучшее понимание данных и задачи, а также более подходящие функции чаще всего приводят к значительному повышению производительности.

В dabl есть несколько инструментов, которые позволяют легко очищать и проверять ваши данные и создавать надежные базовые модели. Эта библиотека пытается помочь сделать машинное обучение с учителем более доступным для начинающих и уменьшить количество шаблонов для общих задач. Это достигается за счет автоматизации процесса итерации различных методов предварительной обработки данных, проектирования функций, настройки параметров и построения моделей для создания эффективных базовых моделей.

Есть два основных пакета, от которых dabl черпает вдохновение и которые dabl основаны на scikit-learn и auto-sklearn.

!pip install dabl
import dabl

Очистка данных

import pandas as pd
data = pd.read_csv(dabl.datasets.data_path("adult.csv.gz"))
data_clean = dabl.clean(data)

Очистка данных - это первый шаг в любом анализе данных. dabl попытается определить типы ваших данных и применить соответствующие преобразования. Его цель - получить данные «достаточно чистыми» для создания полезных визуализаций и моделей и позволить нам выполнять специальные операции очистки.

data_clean = dabl.clean(data, type_hints={"capital-gain": "continuous"})
types = dabl.detect_types(data_clean)
print(types)

Исследовательский анализ данных

Далее идет исследовательский анализ данных. dabl предоставляет высокоуровневый интерфейс, который суммирует несколько общих высокоуровневых графиков. Для низкоразмерных наборов данных показаны все функции; для крупномерных наборов данных показаны только наиболее информативные функции для данной задачи. Однако dabl не гарантирует предоставление всех интересных аспектов данных. В целом dabl предоставит вам быстрое представление о важных функциях, их взаимодействии и степени сложности проблемы.

С помощью dabl.plot () мы можем создать график функций, которые считаются наиболее важными для нашей задачи.

dabl.plot(data, target_col="income")

Построение начальной модели

Наконец, мы можем построить начальную модель для наших данных. SimpleClassifier делает всю работу за нас. Он реализует знакомый scikit-learn API подгонки и прогнозирования.

model = dabl.SimpleClassifier(random_state=0).fit(data, target_col="income")

SimpleClassifier сначала пробует несколько базовых и мгновенных моделей, возможно, на субдискретизированных данных, чтобы получить представление о том, какой должна быть низкая базовая линия. SimpleClassifier также выполняет такие операции предварительной обработки, как вменение пропущенных значений и быстрое кодирование.

Мы можем проверить модель, используя:

dabl.explain(model)

Это может привести к дополнительным сведениям и помочь в обработке и очистке пользовательских данных.

Начните свое путешествие по машинному обучению уже сегодня с dabl.

Прочтите документацию для получения дополнительной информации о полном списке API, ограничениях и будущих разработках.