Машинное обучение с учителем стало более доступным для новичков
Лучшее понимание данных и задачи, а также более подходящие функции чаще всего приводят к значительному повышению производительности.
В dabl есть несколько инструментов, которые позволяют легко очищать и проверять ваши данные и создавать надежные базовые модели. Эта библиотека пытается помочь сделать машинное обучение с учителем более доступным для начинающих и уменьшить количество шаблонов для общих задач. Это достигается за счет автоматизации процесса итерации различных методов предварительной обработки данных, проектирования функций, настройки параметров и построения моделей для создания эффективных базовых моделей.
Есть два основных пакета, от которых dabl черпает вдохновение и которые dabl основаны на scikit-learn и auto-sklearn.
!pip install dabl import dabl
Очистка данных
import pandas as pd data = pd.read_csv(dabl.datasets.data_path("adult.csv.gz")) data_clean = dabl.clean(data)
Очистка данных - это первый шаг в любом анализе данных. dabl попытается определить типы ваших данных и применить соответствующие преобразования. Его цель - получить данные «достаточно чистыми» для создания полезных визуализаций и моделей и позволить нам выполнять специальные операции очистки.
data_clean = dabl.clean(data, type_hints={"capital-gain": "continuous"}) types = dabl.detect_types(data_clean) print(types)
Исследовательский анализ данных
Далее идет исследовательский анализ данных. dabl предоставляет высокоуровневый интерфейс, который суммирует несколько общих высокоуровневых графиков. Для низкоразмерных наборов данных показаны все функции; для крупномерных наборов данных показаны только наиболее информативные функции для данной задачи. Однако dabl не гарантирует предоставление всех интересных аспектов данных. В целом dabl предоставит вам быстрое представление о важных функциях, их взаимодействии и степени сложности проблемы.
С помощью dabl.plot () мы можем создать график функций, которые считаются наиболее важными для нашей задачи.
dabl.plot(data, target_col="income")
Построение начальной модели
Наконец, мы можем построить начальную модель для наших данных. SimpleClassifier делает всю работу за нас. Он реализует знакомый scikit-learn API подгонки и прогнозирования.
model = dabl.SimpleClassifier(random_state=0).fit(data, target_col="income")
SimpleClassifier сначала пробует несколько базовых и мгновенных моделей, возможно, на субдискретизированных данных, чтобы получить представление о том, какой должна быть низкая базовая линия. SimpleClassifier также выполняет такие операции предварительной обработки, как вменение пропущенных значений и быстрое кодирование.
Мы можем проверить модель, используя:
dabl.explain(model)
Это может привести к дополнительным сведениям и помочь в обработке и очистке пользовательских данных.
Начните свое путешествие по машинному обучению уже сегодня с dabl.
Прочтите документацию для получения дополнительной информации о полном списке API, ограничениях и будущих разработках.