Scikit-learn, Numpy, Pandas, Matplotlib, Plotly, Bokeh и Seaborn - это некоторые из распространенных библиотек Python, используемых в области науки о данных. Давайте посмотрим на некоторые другие библиотеки, которые могут быть полезны для проектов в области науки о данных.
1-Feature Engine
Feature-Engine - это библиотека для разработки функций, которая позволяет нам выбирать переменные, которые мы хотим преобразовать, поэтому очень легко применять различные инженерные процедуры к разным подмножествам функций. Кроме того, трансформаторы Feature-Engine могут быть собраны в конвейере Scikit-learn.
Feature-Engine включает трансформаторы для:
- Преобразование переменной
- Выбор переменных
- Кодирование категориальных переменных
- Вменение отсутствующих данных
- Дискретизация
- Блокирование или удаление выбросов
- Создание переменной
Документация и многое другое:
2-желтый кирпич
Yellowbrick - это библиотека для визуализации машинного обучения. Он расширяет API Scikit-Learn, чтобы упростить выбор модели и настройку гиперпараметров. Для визуализации используется Matplotlib. Некоторые визуализаторы: кривые прецизионного вызова, матрицы неточностей, график остатков, график K-образного изгиба, график силуэта, кривая обучения, визуализация корпуса t-SNE…
Документация и многое другое:
3-PDPbox
Графики частичной зависимости показывают предельное влияние одной или двух функций на прогнозируемый результат модели машинного обучения (J.H. Friedman, 2001). PDPBox - это библиотека для построения графиков частичной зависимости.
Документация и многое другое:
4-Эли5
Eli5 - это пакет Python, который помогает отлаживать классификаторы машинного обучения и объяснять их прогнозы. Это помогает объяснить прогнозы оценщиков черного ящика. Он обеспечивает поддержку Scikit-Learn, Keras, xgboost, LightGBM, CatBoost…
Документация и многое другое:
5-Researchpy
Researchpy создает Pandas DataFrames, которые содержат релевантную статистическую информацию о тестировании, необходимую для академических исследований. Он использует Pandas, Scipy, Numpy, Statmodels…
Документация и многое другое:
6-ЛАЙМ
LIME (Local Interpretable Model-Agnostic Explanations) - это алгоритм для объяснения прогнозов оценщиков черного ящика, а библиотека LIME - одна из самых популярных библиотек Python для объяснимости модели.
Документация и многое другое:
7-ФОРМА
SHAP (Аддитивные объяснения Шэпли) - это теоретико-игровой подход для объяснения результатов работы любой модели машинного обучения, а библиотека Shap позволяет нам визуализировать шейпли-значения.
Документация и многое другое:
8-Миссинно
Missingno предоставляет небольшой набор гибких и простых в использовании инструментов для визуализации отсутствующих данных и помогает нам быстро получить визуальную сводку по нашему набору данных.
Документация и многое другое:
9-Imblearn
Imbalanced-learn (Imblearn) - это библиотека с открытым исходным кодом, основанная на scikit-learn и предоставляющая инструменты при работе с классификацией с несбалансированными классами.
Документация и многое другое:
10-Dataprep
DataPrep позволяет нам подготовить и визуализировать наши данные с помощью нескольких строк кода. Думаю, это могла бы быть альтернатива профилированию Pandas.
Документация и многое другое:
11-Дайтон
Dython - это набор инструментов для анализа данных, которые помогут вам лучше понять свои данные. Dython автоматически определяет, какие функции являются категориальными, а какие - числовыми, вычисляет соответствующую меру связи между каждой функцией, а также отображает все это в виде тепловой карты.
Документация и многое другое:
12-статистические модели
Statsmodels - это модуль Python, который включает классы и функции для оценки множества различных статистических моделей, а также для проведения статистических тестов и исследования статистических данных.
Документация и многое другое:
13-Mlxtend
Mlxtend (расширения для машинного обучения) - это библиотека, содержащая полезные инструменты для задач науки о данных.
Документация и многое другое:
14- SciPy
SciPy - это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Он содержит полезные функции в таких областях, как линейная алгебра, оптимизация, обработка сигналов и статистика.
Документация и многое другое:
Профилирование 15 панд
Он генерирует отчеты из фрейма данных pandas для быстрого исследовательского анализа данных.
Документация и многое другое:
16-Sweetviz
Sweetviz - это библиотека Python с открытым исходным кодом, которая генерирует визуализации высокой плотности для исследовательского анализа данных с помощью всего двух строк кода. Вывод - это полностью автономное HTML-приложение.
Документация и многое другое:
17-Дтреевиз
Dtreeviz - это библиотека для визуализации дерева решений и интерпретации модели. В настоящее время он поддерживает деревья Scikit-Learn, XGBoost, Spark MLlib и LightGBM.
Документация и многое другое:
18-category_encoders
Это библиотека, которая включает преобразователи в стиле scikit-learn для кодирования категориальных переменных в числовые с помощью различных методов. Некоторые из кодировщиков: Count Encoder, CatBoost Encoder, James-Stein Encoder, Target Encoder…
Документация и многое другое:
19-tslearn
tslearn - это пакет, который предоставляет некоторые инструменты машинного обучения для анализа временных рядов. Этот пакет основан на библиотеках scikit-learn, numpy и scipy.
Документация и многое другое:
20-скимэ
Это единая структура для машинного обучения с временными рядами. Он предоставляет специализированные алгоритмы временных рядов и инструменты, совместимые с scikit-learn, для построения моделей временных рядов.
Документация и многое другое:
Чтобы просмотреть другие опубликованные статьи: https://medium.com/datasciencearth
Чтобы просмотреть опубликованные турецкие статьи: https://www.datasciencearth.com