Привет народ !! В этом посте я расскажу об основных инструментах и программном обеспечении, которые можно использовать для решения проблемы науки о данных. Если вы новичок в машинном обучении, науке о данных или статистике, не стесняйтесь проверить мой другой блог о машинном обучении, щелкнув ссылку ниже.
Что такое инструментарий для анализа данных?
Что ж, инструментарий для науки о данных - это не что иное, как список функций / модулей / пакетов / фреймворков / программного обеспечения, которые действительно могут помочь специалисту по данным в решении проблемы. Иногда у вас есть эти функции / пакеты, доступные в виде сторонних пакетов или программного обеспечения, а иногда вам необходимо создать свои собственные. Вот почему настоящий специалист по данным - это смесь (статистика и программист).
ПРИМЕЧАНИЕ. Я уже предполагаю, что вы хорошо разбираетесь в статистике и неплохо разбираетесь в Python. [Если нет, то сначала изучите статистику и программирование :)] Итак, не теряя времени, давайте начать .
Блокнот Jupyter
Jupyter Notebook - это веб-приложение с открытым исходным кодом, которое позволяет создавать и обмениваться документами, содержащими живой код, уравнения, визуализации и повествовательный текст. Он широко используется в сообществе специалистов по анализу данных. Вы можете скачать блокнот jupyter по ссылке: https://jupyter.org/install.
Давайте посмотрим на некоторые команды быстрого доступа в этой записной книжке.
- ctrl + Enter: запуск выбранных ячеек.
- shift + Enter: запустить текущую ячейку и выбрать ниже
- Alt + Enter: запустить текущую ячейку и вставить новую ячейку ниже.
- M: чтобы изменить тип ячейки на Markdown
- Y: чтобы изменить тип ячейки на "Код"
- A: Вставьте ячейку вверху
- B: вставьте ячейку ниже
Numpy
NumPy - это фундаментальный пакет для научных вычислений с Python. Это очень мощный инструмент, который широко используется при решении задач науки о данных. Давайте посмотрим, как использовать эту библиотеку, на примере кода.
Приведенный выше код в значительной степени не требует пояснений, я просто создаю массив numpy из 1 и 2 измерений, передавая в нем список значений, проверяя его тип данных с помощью метода dtype и проверяя размеры массива numpy с помощью метод формы. Затем я изменяю его с помощью метода reshape, передавая значения строк и столбцов, которые я хочу, чтобы мой массив изменился. Нарезка массива numpy легко выполняется с помощью синтаксиса ниже: numpy_array [row_to_extract, column_to_extract] или numpy_array [ start_row_index: end_row_index, start_col_index: end_col_index]
Панды
Pandas - это библиотека с открытым исходным кодом, предоставляющая высокопроизводительные, простые в использовании структуры данных и инструменты анализа данных для Python. Если честно, он похож на excel или sql, но немного продвинутый и немного лучше. Давайте посмотрим на несколько примеров кода. вы можете получить данные, перейдя по ссылке ниже.
ссылка: https://github.com/karanjagota/MediumBlogs/blob/master/auto.csv или ссылка на исходный источник: https://archive.ics.uci.edu/ml/datasets/auto+mpg
Чтение файлов
Давайте посмотрим на три функции, которые я использовал в приведенном выше коде.
- read_csv: используется для преобразования файла CSV в фрейм данных.
- head: используется для поиска первых 5 строк в наборе данных / фрейме данных.
- shape: метод Shape возвращает количество строк и столбцов фрейма данных.
Подмножество:
Q1. Извлеките только те строки, в которых column_name: ‘mpg’ больше 30.
Q2. Извлеките только те строки, в которых column_name: «origin» равно «Asia».
Q3. Выберите только первые 20 строк данных / фрейма данных
Давайте посмотрим на синтаксис приведенного выше кода.
- loc []: loc означает местоположение, а метод loc используется для доступа к группе строк и столбцов по меткам.
- iloc []: iloc означает расположение индекса, а метод iloc используется для доступа к группе строк и столбцов по их индексам.
Изменение формы DataFrame
Давайте посмотрим на функции, используемые в приведенном выше коде.
- DataFrame: используется для преобразования словаря в фрейм данных.
- melt: этот метод отменяет поворот фрейма данных из широкого формата в длинный, при необходимости оставляя переменные идентификатора установленными.
Объединение DataFrames
Сюжетно
Plotly - это библиотека для построения графиков. Это действительно помогает в визуализации данных и упрощает работу специалиста по данным. С plotly Data Scientist может очень легко визуализировать данные. Недавно я написал пост «Визуализация данных с помощью plotly (Code)». Не стесняйтесь проверить это, нажав на ссылку ниже.
Scikit-Learn / Sklearn
Scikit-learn - это бесплатная библиотека машинного обучения для Python. Он предоставляет множество алгоритмов машинного обучения с помощью нескольких строк кода. На мой взгляд, эта библиотека - благословение для всех специалистов по данным. Давайте посмотрим на пример кодирования.
Надеюсь, вам понравился мой пост! Если да, пожалуйста, хлопните в ладоши. Это побудило бы меня писать больше, и если вы новичок в науке о данных, не стесняйтесь проверить мой пост «Описательная статистика (концепции + код)», щелкнув ссылку ниже.
Спасибо, что прочитали мой пост. И не забывайте хлопать, делиться и подписываться.