Инструментарий Data Science (концепции + код)

Привет народ !! В этом посте я расскажу об основных инструментах и программном обеспечении, которые можно использовать для решения проблемы науки о данных. Если вы новичок в машинном обучении, науке о данных или статистике, не стесняйтесь проверить мой другой блог о машинном обучении, щелкнув ссылку ниже.

Машинное обучение 101 [Часть 1] (концепции + примеры)
Привет, вы хотите начать заниматься наукой о данных и Ml и не знаете, с чего начать? Какие концепции изучать? Какой… medium.com

Что такое инструментарий для анализа данных?

Что ж, инструментарий для науки о данных - это не что иное, как список функций / модулей / пакетов / фреймворков / программного обеспечения, которые действительно могут помочь специалисту по данным в решении проблемы. Иногда у вас есть эти функции / пакеты, доступные в виде сторонних пакетов или программного обеспечения, а иногда вам необходимо создать свои собственные. Вот почему настоящий специалист по данным - это смесь (статистика и программист).

ПРИМЕЧАНИЕ. Я уже предполагаю, что вы хорошо разбираетесь в статистике и неплохо разбираетесь в Python. [Если нет, то сначала изучите статистику и программирование :)] Итак, не теряя времени, давайте начать .

Блокнот Jupyter

Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое позволяет создавать и обмениваться документами, содержащими живой код, уравнения, визуализации и повествовательный текст. Он широко используется в сообществе специалистов по анализу данных. Вы можете скачать блокнот jupyter по ссылке: https://jupyter.org/install.

Давайте посмотрим на некоторые команды быстрого доступа в этой записной книжке.

ctrl + Enter: запуск выбранных ячеек.
shift + Enter: запустить текущую ячейку и выбрать ниже
Alt + Enter: запустить текущую ячейку и вставить новую ячейку ниже.
M: чтобы изменить тип ячейки на Markdown
Y: чтобы изменить тип ячейки на "Код"
A: Вставьте ячейку вверху
B: вставьте ячейку ниже

Numpy

NumPy - это фундаментальный пакет для научных вычислений с Python. Это очень мощный инструмент, который широко используется при решении задач науки о данных. Давайте посмотрим, как использовать эту библиотеку, на примере кода.

Приведенный выше код в значительной степени не требует пояснений, я просто создаю массив numpy из 1 и 2 измерений, передавая в нем список значений, проверяя его тип данных с помощью метода dtype и проверяя размеры массива numpy с помощью метод формы. Затем я изменяю его с помощью метода reshape, передавая значения строк и столбцов, которые я хочу, чтобы мой массив изменился. Нарезка массива numpy легко выполняется с помощью синтаксиса ниже: numpy_array [row_to_extract, column_to_extract] или numpy_array [ start_row_index: end_row_index, start_col_index: end_col_index]

Панды

Pandas - это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для Python. Если честно, он похож на excel или sql, но немного продвинутый и немного лучше. Давайте посмотрим на несколько примеров кода. вы можете получить данные, перейдя по ссылке ниже.

ссылка: https://github.com/karanjagota/MediumBlogs/blob/master/auto.csv или ссылка на исходный источник: https://archive.ics.uci.edu/ml/datasets/auto+mpg

Чтение файлов

Давайте посмотрим на три функции, которые я использовал в приведенном выше коде.

read_csv: используется для преобразования файла CSV в фрейм данных.
head: используется для поиска первых 5 строк в наборе данных / фрейме данных.
shape: метод Shape возвращает количество строк и столбцов фрейма данных.

Подмножество:

Q1. Извлеките только те строки, в которых column_name: ‘mpg’ больше 30.

Q2. Извлеките только те строки, в которых column_name: «origin» равно «Asia».

Q3. Выберите только первые 20 строк данных / фрейма данных

Давайте посмотрим на синтаксис приведенного выше кода.

loc []: loc означает местоположение, а метод loc используется для доступа к группе строк и столбцов по меткам.
iloc []: iloc означает расположение индекса, а метод iloc используется для доступа к группе строк и столбцов по их индексам.

Изменение формы DataFrame

Давайте посмотрим на функции, используемые в приведенном выше коде.

DataFrame: используется для преобразования словаря в фрейм данных.
melt: этот метод отменяет поворот фрейма данных из широкого формата в длинный, при необходимости оставляя переменные идентификатора установленными.

Объединение DataFrames

Сюжетно

Plotly - это библиотека для построения графиков. Это действительно помогает в визуализации данных и упрощает работу специалиста по данным. С plotly Data Scientist может очень легко визуализировать данные. Недавно я написал пост «Визуализация данных с помощью plotly (Code)». Не стесняйтесь проверить это, нажав на ссылку ниже.

Визуализация данных с помощью Plotly (Code)
Plotly - отличная библиотека визуализации. Это открытый исходный код и в некоторой степени бесплатный, и его можно будет использовать в следующем… medium.com

Scikit-Learn / Sklearn

Scikit-learn - это бесплатная библиотека машинного обучения для Python. Он предоставляет множество алгоритмов машинного обучения с помощью нескольких строк кода. На мой взгляд, эта библиотека - благословение для всех специалистов по данным. Давайте посмотрим на пример кодирования.

Надеюсь, вам понравился мой пост! Если да, пожалуйста, хлопните в ладоши. Это побудило бы меня писать больше, и если вы новичок в науке о данных, не стесняйтесь проверить мой пост «Описательная статистика (концепции + код)», щелкнув ссылку ниже.

Описательная статистика (концепции + код)
Описательная статистика предоставляет простые сводные данные об образце. Такие сводки могут быть количественными (сводка… medium.com

Спасибо, что прочитали мой пост. И не забывайте хлопать, делиться и подписываться.