Scikit-learn, Numpy, Pandas, Matplotlib, Plotly, Bokeh и Seaborn - это некоторые из распространенных библиотек Python, используемых в области науки о данных. Давайте посмотрим на некоторые другие библиотеки, которые могут быть полезны для проектов в области науки о данных.

1-Feature Engine

Feature-Engine - это библиотека для разработки функций, которая позволяет нам выбирать переменные, которые мы хотим преобразовать, поэтому очень легко применять различные инженерные процедуры к разным подмножествам функций. Кроме того, трансформаторы Feature-Engine могут быть собраны в конвейере Scikit-learn.

Feature-Engine включает трансформаторы для:

  • Преобразование переменной
  • Выбор переменных
  • Кодирование категориальных переменных
  • Вменение отсутствующих данных
  • Дискретизация
  • Блокирование или удаление выбросов
  • Создание переменной

Документация и многое другое:



2-желтый кирпич

Yellowbrick - это библиотека для визуализации машинного обучения. Он расширяет API Scikit-Learn, чтобы упростить выбор модели и настройку гиперпараметров. Для визуализации используется Matplotlib. Некоторые визуализаторы: кривые прецизионного вызова, матрицы неточностей, график остатков, график K-образного изгиба, график силуэта, кривая обучения, визуализация корпуса t-SNE…

Документация и многое другое:



3-PDPbox

Графики частичной зависимости показывают предельное влияние одной или двух функций на прогнозируемый результат модели машинного обучения (J.H. Friedman, 2001). PDPBox - это библиотека для построения графиков частичной зависимости.

Документация и многое другое:



4-Эли5

Eli5 - это пакет Python, который помогает отлаживать классификаторы машинного обучения и объяснять их прогнозы. Это помогает объяснить прогнозы оценщиков черного ящика. Он обеспечивает поддержку Scikit-Learn, Keras, xgboost, LightGBM, CatBoost…

Документация и многое другое:



5-Researchpy

Researchpy создает Pandas DataFrames, которые содержат релевантную статистическую информацию о тестировании, необходимую для академических исследований. Он использует Pandas, Scipy, Numpy, Statmodels…

Документация и многое другое:



6-ЛАЙМ

LIME (Local Interpretable Model-Agnostic Explanations) - это алгоритм для объяснения прогнозов оценщиков черного ящика, а библиотека LIME - одна из самых популярных библиотек Python для объяснимости модели.

Документация и многое другое:



7-ФОРМА

SHAP (Аддитивные объяснения Шэпли) - это теоретико-игровой подход для объяснения результатов работы любой модели машинного обучения, а библиотека Shap позволяет нам визуализировать шейпли-значения.

Документация и многое другое:



8-Миссинно

Missingno предоставляет небольшой набор гибких и простых в использовании инструментов для визуализации отсутствующих данных и помогает нам быстро получить визуальную сводку по нашему набору данных.

Документация и многое другое:



9-Imblearn

Imbalanced-learn (Imblearn) - это библиотека с открытым исходным кодом, основанная на scikit-learn и предоставляющая инструменты при работе с классификацией с несбалансированными классами.

Документация и многое другое:



10-Dataprep

DataPrep позволяет нам подготовить и визуализировать наши данные с помощью нескольких строк кода. Думаю, это могла бы быть альтернатива профилированию Pandas.

Документация и многое другое:



11-Дайтон

Dython - это набор инструментов для анализа данных, которые помогут вам лучше понять свои данные. Dython автоматически определяет, какие функции являются категориальными, а какие - числовыми, вычисляет соответствующую меру связи между каждой функцией, а также отображает все это в виде тепловой карты.

Документация и многое другое:



12-статистические модели

Statsmodels - это модуль Python, который включает классы и функции для оценки множества различных статистических моделей, а также для проведения статистических тестов и исследования статистических данных.

Документация и многое другое:



13-Mlxtend

Mlxtend (расширения для машинного обучения) - это библиотека, содержащая полезные инструменты для задач науки о данных.

Документация и многое другое:



14- SciPy

SciPy - это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Он содержит полезные функции в таких областях, как линейная алгебра, оптимизация, обработка сигналов и статистика.

Документация и многое другое:



Профилирование 15 панд

Он генерирует отчеты из фрейма данных pandas для быстрого исследовательского анализа данных.

Документация и многое другое:



16-Sweetviz

Sweetviz - это библиотека Python с открытым исходным кодом, которая генерирует визуализации высокой плотности для исследовательского анализа данных с помощью всего двух строк кода. Вывод - это полностью автономное HTML-приложение.

Документация и многое другое:



17-Дтреевиз

Dtreeviz - это библиотека для визуализации дерева решений и интерпретации модели. В настоящее время он поддерживает деревья Scikit-Learn, XGBoost, Spark MLlib и LightGBM.

Документация и многое другое:



18-category_encoders

Это библиотека, которая включает преобразователи в стиле scikit-learn для кодирования категориальных переменных в числовые с помощью различных методов. Некоторые из кодировщиков: Count Encoder, CatBoost Encoder, James-Stein Encoder, Target Encoder…

Документация и многое другое:



19-tslearn

tslearn - это пакет, который предоставляет некоторые инструменты машинного обучения для анализа временных рядов. Этот пакет основан на библиотеках scikit-learn, numpy и scipy.

Документация и многое другое:



20-скимэ

Это единая структура для машинного обучения с временными рядами. Он предоставляет специализированные алгоритмы временных рядов и инструменты, совместимые с scikit-learn, для построения моделей временных рядов.

Документация и многое другое:



Чтобы просмотреть другие опубликованные статьи: https://medium.com/datasciencearth

Чтобы просмотреть опубликованные турецкие статьи: https://www.datasciencearth.com