20 полезных библиотек Python для проектов в области науки о данных

Scikit-learn, Numpy, Pandas, Matplotlib, Plotly, Bokeh и Seaborn - это некоторые из распространенных библиотек Python, используемых в области науки о данных. Давайте посмотрим на некоторые другие библиотеки, которые могут быть полезны для проектов в области науки о данных.

1-Feature Engine

Feature-Engine - это библиотека для разработки функций, которая позволяет нам выбирать переменные, которые мы хотим преобразовать, поэтому очень легко применять различные инженерные процедуры к разным подмножествам функций. Кроме того, трансформаторы Feature-Engine могут быть собраны в конвейере Scikit-learn.

Feature-Engine включает трансформаторы для:

Преобразование переменной
Выбор переменных
Кодирование категориальных переменных
Вменение отсутствующих данных
Дискретизация
Блокирование или удаление выбросов
Создание переменной

Документация и многое другое:

Feature-engine: библиотека Python для проектирования функций для машинного обучения - 1.0.2
Feature-engine - это библиотека Python с несколькими преобразователями для разработки функций для использования в машинном обучении модели… feature-engine.readthedocs.io

2-желтый кирпич

Yellowbrick - это библиотека для визуализации машинного обучения. Он расширяет API Scikit-Learn, чтобы упростить выбор модели и настройку гиперпараметров. Для визуализации используется Matplotlib. Некоторые визуализаторы: кривые прецизионного вызова, матрицы неточностей, график остатков, график K-образного изгиба, график силуэта, кривая обучения, визуализация корпуса t-SNE…

Документация и многое другое:

Yellowbrick: визуализация машинного обучения - документация Yellowbrick v1.3.post1
Независимо от вашего уровня технических навыков, вы можете быть полезны. Мы ценим сообщения об ошибках, пользовательское тестирование, запросы функций… www.scikit-yb.org

3-PDPbox

Графики частичной зависимости показывают предельное влияние одной или двух функций на прогнозируемый результат модели машинного обучения (J.H. Friedman, 2001). PDPBox - это библиотека для построения графиков частичной зависимости.

Документация и многое другое:

SauceCat / PDPbox
Панель инструментов графика частичной зависимости python Обновление для версий: xgboost == 1.3.3 matplotlib == 3.1.1 sklearn == 0.23.1 This… github.com

4-Эли5

Eli5 - это пакет Python, который помогает отлаживать классификаторы машинного обучения и объяснять их прогнозы. Это помогает объяснить прогнозы оценщиков черного ящика. Он обеспечивает поддержку Scikit-Learn, Keras, xgboost, LightGBM, CatBoost…

Документация и многое другое:

Добро пожаловать в документацию по ELI5! - Документация по ELI5 0.11.0
ELI5 - это библиотека Python, которая позволяет визуализировать и отлаживать различные модели машинного обучения с помощью единого API. На нем есть… eli5.readthedocs.io

5-Researchpy

Researchpy создает Pandas DataFrames, которые содержат релевантную статистическую информацию о тестировании, необходимую для академических исследований. Он использует Pandas, Scipy, Numpy, Statmodels…

Документация и многое другое:

Добро пожаловать в документацию researchpy! - документация по researchpy 0.3.2
Researchpy создает Pandas DataFrames, которые содержат соответствующую статистическую информацию о тестировании, которая обычно требуется… researchpy.readthedocs.io

6-ЛАЙМ

LIME (Local Interpretable Model-Agnostic Explanations) - это алгоритм для объяснения прогнозов оценщиков черного ящика, а библиотека LIME - одна из самых популярных библиотек Python для объяснимости модели.

Документация и многое другое:

marcotcr / lime
Этот проект посвящен объяснению того, что делают классификаторы (или модели) машинного обучения. На данный момент мы поддерживаем… github.com

7-ФОРМА

SHAP (Аддитивные объяснения Шэпли) - это теоретико-игровой подход для объяснения результатов работы любой модели машинного обучения, а библиотека Shap позволяет нам визуализировать шейпли-значения.

Документация и многое другое:

slundberg / shap
SHAP (Аддитивные объяснения Шапли) - теоретико-игровой подход для объяснения результатов любой модели машинного обучения… github.com

8-Миссинно

Missingno предоставляет небольшой набор гибких и простых в использовании инструментов для визуализации отсутствующих данных и помогает нам быстро получить визуальную сводку по нашему набору данных.

Документация и многое другое:

ResidentMario / missingno
Беспорядочные наборы данных? Отсутствуют значения? Missingno предоставляет небольшой набор гибких и простых в использовании недостающих данных… github.com

9-Imblearn

Imbalanced-learn (Imblearn) - это библиотека с открытым исходным кодом, основанная на scikit-learn и предоставляющая инструменты при работе с классификацией с несбалансированными классами.

Документация и многое другое:

Руководство пользователя: содержание - Версия 0.8.0
Изменить описание imbalanced-learn.org

10-Dataprep

DataPrep позволяет нам подготовить и визуализировать наши данные с помощью нескольких строк кода. Думаю, это могла бы быть альтернатива профилированию Pandas.

Документация и многое другое:

sfu-db / dataprep
DataPrep позволяет подготовить данные, используя единую библиотеку с несколькими строками кода. В настоящее время вы можете использовать DataPrep… github.com

11-Дайтон

Dython - это набор инструментов для анализа данных, которые помогут вам лучше понять свои данные. Dython автоматически определяет, какие функции являются категориальными, а какие - числовыми, вычисляет соответствующую меру связи между каждой функцией, а также отображает все это в виде тепловой карты.

Документация и многое другое:

dython
Dython - это набор инструментов анализа данных в p YTHON 3.x, который позволяет вам получить больше информации о ваших данных. Это… shakedzy.xyz

12-статистические модели

Statsmodels - это модуль Python, который включает классы и функции для оценки множества различных статистических моделей, а также для проведения статистических тестов и исследования статистических данных.

Документация и многое другое:

Примеры - модели статистики
На этой странице представлен ряд примеров, руководств и рецептов, которые помогут вам начать работу с моделями статистики. Каждый из… www.statsmodels.org

13-Mlxtend

Mlxtend (расширения для машинного обучения) - это библиотека, содержащая полезные инструменты для задач науки о данных.

Документация и многое другое:

Домашняя страница - mlxtend
Mlxtend (расширения для машинного обучения) - это библиотека Python с полезными инструментами для повседневных задач анализа данных. rasbt.github. io

14- SciPy

SciPy - это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Он содержит полезные функции в таких областях, как линейная алгебра, оптимизация, обработка сигналов и статистика.

Документация и многое другое:

Документация - SciPy.org
Документация для основных проектов SciPy Stack: www.scipy.org

Профилирование 15 панд

Он генерирует отчеты из фрейма данных pandas для быстрого исследовательского анализа данных.

Документация и многое другое:

Профилирование панд / профилирование панд
Документация | Slack | Stack Overflow Создает отчеты профиля из фрейма данных pandas. Панды df.describe ()… github.com

16-Sweetviz

Sweetviz - это библиотека Python с открытым исходным кодом, которая генерирует визуализации высокой плотности для исследовательского анализа данных с помощью всего двух строк кода. Вывод - это полностью автономное HTML-приложение.

Документация и многое другое:

fbdesignpro / sweetviz
Углубленный EDA (целевой анализ, сравнение, анализ характеристик, корреляция) в двух строчках кода! Sweetviz - это… github.com

17-Дтреевиз

Dtreeviz - это библиотека для визуализации дерева решений и интерпретации модели. В настоящее время он поддерживает деревья Scikit-Learn, XGBoost, Spark MLlib и LightGBM.

Документация и многое другое:

parrt / dtreeviz
Библиотека Python для визуализации дерева решений и интерпретации модели. В настоящее время поддерживает scikit-learn, XGBoost… github.com

18-category_encoders

Это библиотека, которая включает преобразователи в стиле scikit-learn для кодирования категориальных переменных в числовые с помощью различных методов. Некоторые из кодировщиков: Count Encoder, CatBoost Encoder, James-Stein Encoder, Target Encoder…

Документация и многое другое:

Кодировщики категорий - документация кодировщиков категорий 2.2.2
Набор преобразователей в стиле scikit-learn для кодирования категориальных переменных в числовые с помощью различных методов… contrib.scikit -learn.org

19-tslearn

tslearn - это пакет, который предоставляет некоторые инструменты машинного обучения для анализа временных рядов. Этот пакет основан на библиотеках scikit-learn, numpy и scipy.

Документация и многое другое:

Краткое руководство - документация по tslearn 0.5.1.0
Редактировать описание tslearn.readthedocs.io

20-скимэ

Это единая структура для машинного обучения с временными рядами. Он предоставляет специализированные алгоритмы временных рядов и инструменты, совместимые с scikit-learn, для построения моделей временных рядов.

Документация и многое другое:

Добро пожаловать в sktime - документация по sktime
Изменить описание www.sktime.org

Чтобы просмотреть другие опубликованные статьи: https://medium.com/datasciencearth

Чтобы просмотреть опубликованные турецкие статьи: https://www.datasciencearth.com

20 полезных библиотек Python для проектов в области науки о данных

1-Feature Engine

2-желтый кирпич

3-PDPbox

4-Эли5

5-Researchpy

6-ЛАЙМ

7-ФОРМА

8-Миссинно

9-Imblearn

10-Dataprep

11-Дайтон

12-статистические модели

13-Mlxtend

14- SciPy

Профилирование 15 панд

16-Sweetviz

17-Дтреевиз

18-category_encoders

19-tslearn

20-скимэ

Вопросы по теме