от начального до продвинутого уровня

Есть в основном 5 пунктов, в которых подводятся итоги Data Science.

1) Языки программирования

В науке о данных есть два самых мощных и полезных языка:
PYTHON и R.
› Python — мощный язык, и 80% Data Professional используется по всему миру. Он имеет большую стандартную библиотеку, такую ​​​​как Numpy, Pandas, SciPy и MatplotLib.
Некоторые организации используют Python, например IBM, Google, Reddit, Spotify и т. д.
› R – это язык, который чаще всего используется статистиками, математиками и сборщиками данных для разработки статистического программного обеспечения, построения графиков и т. д.
Некоторые организации использует R, как Ford, Uber, Truila, IBM, Facebook и т. д.
› SQL используется аналитиками данных и бизнес-аналитиками. Это необязательно для Data Scientist. По сути, SQL — это интерпретатор между вами и базой данных.
Существует множество баз данных SQL, таких как mySQL, IDM DB2, SQLite, PostgreSQL
SQL старше, чем python и R.

2) Статистика

Это часть интегрированной прикладной математики, которая имеет дело с данными. это помогает собирать данные, а затем анализировать их должным образом, после чего помогает читать данные и упорядочивать их, и, наконец, помогает использовать математические вычисления для получения информации.
Некоторые моменты, хорошо описанные в статистике: Искусство суммирования данных
б) наука о неопределенности
в) наука о решениях
г) наука о вариациях
д) искусство прогнозирования
е) наука об измерениях.

3) Визуализация данных

Это способ показать сложные данные в графической и простой для понимания форме.
зачем мы создаем визуальные элементы?
* для исследовательского анализа данных
* делимся непредвзятым представлением данных
> *Четко передавать данные
MatplotLib
Основные инструменты визуализации, такие как диаграмма с площадями, гистограмма, гистограмма
Специальные инструменты визуализации, такие как круговая диаграмма, блочная диаграмма, точечная диаграмма .
Вафельная диаграмма и облако слов не поддерживаются в matplotlib.
Расширенная визуализация и геопространственные данные
Seaborn: —
Это библиотека визуализации, основанная на matplotlib. ex- Регрессионный график.
Folium:- Это мощная библиотека визуализации, которая в первую очередь помогает людям визуализировать геопространственные данные. В этом вы можете создать карту любого места в мире, если его значения широты и долготы. вы можете создать карту и наложить маркеры. В этой библиотеке есть ряд встроенных наборов тайлов из OpenStreetMap, Mapbox и stamen.
Карта Choropleth: — это тематическая карта, на которой области заштрихованы или нанесены узором пропорционально измерению статистического отображаемая на карте переменная, например плотность населения или доход на душу населения.

4) Машинное обучение

ML — это подраздел компьютерных наук, который дает «компьютеру возможность обучаться без явного программирования». br /> b)Классификация = предсказание класса элемента/категории дела
c) Кластеризация = нахождение структуры данных/обобщение
d ) Associations = связывание часто встречающихся элементов
e) Обнаружение аномалий = обнаружение аномальных и необычных случаев
f) Изучение последовательности = предсказать следующее событие
g) Уменьшение размера = уменьшить размер данных (PCA)
h) Система рекомендаций = рекомендовать такие элементы, как книги и фильмы.
Остальную часть ML я объясню в следующем блоге.

5) Другие ресурсы

Github = это платформа для размещения кода для совместной работы и управления версиями, или мы можем сказать, что здесь вы можете поделиться своим кодом и вместе работать над проектом.
это платформа с открытым исходным кодом для разработчиков.
Новости науки о данных = читайте некоторые новости из журнала Economics Times и некоторые блоги из среды и других ресурсов, чтобы быть в курсе последних тем и новостей.
Kaggle = узнайте на kaggle, где так много бесплатных наборов данных, и участвуйте в соревнованиях, чтобы понять уровень конкурентов.
Книги = справочник по науке о данных на Python, практическая статистика для специалистов по данным и т. д.

В заключение я хотел бы сказать, что наука о данных — это обширная область, и обучение полезно для здоровой конкуренции, а также описать что-то новое из компьютерного зрения и НЛП.
В следующем блоге я расскажу о компьютерном зрении и обработке изображений.

Если вам понравилась эта статья, пожалуйста, поставьте лайк. Заранее спасибо.