Привет народ !! В этом посте я расскажу об основных инструментах и ​​программном обеспечении, которые можно использовать для решения проблемы науки о данных. Если вы новичок в машинном обучении, науке о данных или статистике, не стесняйтесь проверить мой другой блог о машинном обучении, щелкнув ссылку ниже.



Что такое инструментарий для анализа данных?

Что ж, инструментарий для науки о данных - это не что иное, как список функций / модулей / пакетов / фреймворков / программного обеспечения, которые действительно могут помочь специалисту по данным в решении проблемы. Иногда у вас есть эти функции / пакеты, доступные в виде сторонних пакетов или программного обеспечения, а иногда вам необходимо создать свои собственные. Вот почему настоящий специалист по данным - это смесь (статистика и программист).

ПРИМЕЧАНИЕ. Я уже предполагаю, что вы хорошо разбираетесь в статистике и неплохо разбираетесь в Python. [Если нет, то сначала изучите статистику и программирование :)] Итак, не теряя времени, давайте начать .

Блокнот Jupyter

Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое позволяет создавать и обмениваться документами, содержащими живой код, уравнения, визуализации и повествовательный текст. Он широко используется в сообществе специалистов по анализу данных. Вы можете скачать блокнот jupyter по ссылке: https://jupyter.org/install.

Давайте посмотрим на некоторые команды быстрого доступа в этой записной книжке.

  1. ctrl + Enter: запуск выбранных ячеек.
  2. shift + Enter: запустить текущую ячейку и выбрать ниже
  3. Alt + Enter: запустить текущую ячейку и вставить новую ячейку ниже.
  4. M: чтобы изменить тип ячейки на Markdown
  5. Y: чтобы изменить тип ячейки на "Код"
  6. A: Вставьте ячейку вверху
  7. B: вставьте ячейку ниже

Numpy

NumPy - это фундаментальный пакет для научных вычислений с Python. Это очень мощный инструмент, который широко используется при решении задач науки о данных. Давайте посмотрим, как использовать эту библиотеку, на примере кода.

Приведенный выше код в значительной степени не требует пояснений, я просто создаю массив numpy из 1 и 2 измерений, передавая в нем список значений, проверяя его тип данных с помощью метода dtype и проверяя размеры массива numpy с помощью метод формы. Затем я изменяю его с помощью метода reshape, передавая значения строк и столбцов, которые я хочу, чтобы мой массив изменился. Нарезка массива numpy легко выполняется с помощью синтаксиса ниже: numpy_array [row_to_extract, column_to_extract] или numpy_array [ start_row_index: end_row_index, start_col_index: end_col_index]

Панды

Pandas - это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для Python. Если честно, он похож на excel или sql, но немного продвинутый и немного лучше. Давайте посмотрим на несколько примеров кода. вы можете получить данные, перейдя по ссылке ниже.

ссылка: https://github.com/karanjagota/MediumBlogs/blob/master/auto.csv или ссылка на исходный источник: https://archive.ics.uci.edu/ml/datasets/auto+mpg

Чтение файлов

Давайте посмотрим на три функции, которые я использовал в приведенном выше коде.

  1. read_csv: используется для преобразования файла CSV в фрейм данных.
  2. head: используется для поиска первых 5 строк в наборе данных / фрейме данных.
  3. shape: метод Shape возвращает количество строк и столбцов фрейма данных.

Подмножество:

Q1. Извлеките только те строки, в которых column_name: ‘mpg’ больше 30.

Q2. Извлеките только те строки, в которых column_name: «origin» равно «Asia».

Q3. Выберите только первые 20 строк данных / фрейма данных

Давайте посмотрим на синтаксис приведенного выше кода.

  1. loc []: loc означает местоположение, а метод loc используется для доступа к группе строк и столбцов по меткам.
  2. iloc []: iloc означает расположение индекса, а метод iloc используется для доступа к группе строк и столбцов по их индексам.

Изменение формы DataFrame

Давайте посмотрим на функции, используемые в приведенном выше коде.

  1. DataFrame: используется для преобразования словаря в фрейм данных.
  2. melt: этот метод отменяет поворот фрейма данных из широкого формата в длинный, при необходимости оставляя переменные идентификатора установленными.

Объединение DataFrames

Сюжетно

Plotly - это библиотека для построения графиков. Это действительно помогает в визуализации данных и упрощает работу специалиста по данным. С plotly Data Scientist может очень легко визуализировать данные. Недавно я написал пост «Визуализация данных с помощью plotly (Code)». Не стесняйтесь проверить это, нажав на ссылку ниже.



Scikit-Learn / Sklearn

Scikit-learn - это бесплатная библиотека машинного обучения для Python. Он предоставляет множество алгоритмов машинного обучения с помощью нескольких строк кода. На мой взгляд, эта библиотека - благословение для всех специалистов по данным. Давайте посмотрим на пример кодирования.

Надеюсь, вам понравился мой пост! Если да, пожалуйста, хлопните в ладоши. Это побудило бы меня писать больше, и если вы новичок в науке о данных, не стесняйтесь проверить мой пост «Описательная статистика (концепции + код)», щелкнув ссылку ниже.



Спасибо, что прочитали мой пост. И не забывайте хлопать, делиться и подписываться.