«Научиться заниматься наукой о данных — это все равно, что научиться кататься на лыжах. Вы должны это сделать».
— Клаудия Перлих.

Обзор

Наука о данных — это изучение использования знаний предметной области, навыков программирования, математики и статистики для получения осмысленной информации из данных. Практика науки о данных включает в себя применение алгоритмов машинного обучения к ряду типов данных, включая текст, изображения, видео и аудио. Это создает системы искусственного интеллекта (ИИ), которые могут выполнять задачи, обычно выполняемые людьми. Как следствие, эти системы генерируют бизнес-идеи, которые аналитики и бизнес-пользователи могут преобразовать в реальную ценность для бизнеса.

Проще говоря, Data Scientist — это тот, кто практикует искусство Data Science. Специалисты по данным — это те, кто решает сложные проблемы с данными, обладая большим опытом в определенных научных дисциплинах, используя свои знания в области математики, статистики, компьютерных наук и т. д.

Цель Data Scientist — использовать большие объемы данных для исследования проблемы, а затем применять статистические методы для получения значимых и ценных выводов из этих данных. Data Scientist использует передовые методы моделирования, такие как машинное обучение и глубокое обучение. Кроме того, специалист по данным должен сообщать свои результаты различным заинтересованным сторонам, таким как отделы маркетинга, продаж, разработки и т. д., и предлагать решения.

Существует несколько видов ролей в науке о данных:

  • Ученый по данным. Ученый по данным знает почти все в области науки о данных, включая сбор, обработку, анализ, представление и извлечение информации для принятия решений.
  • Инженер данных. Инженеры данных отвечают за большинство технических аспектов системы. К ним относятся проектирование, построение и обслуживание конвейеров данных. Система предназначена для сбора данных из различных источников и их максимально эффективного хранения.
  • Аналитик данных. Большинство людей в наши дни начинают считать, что аналитик данных — это просто другое название специалиста по данным, но между ними есть чертовски большая разница! Анализ данных в хранилище данных выполняется аналитиками данных, которые также создают запросы, создают визуализацию данных и разрабатывают отчеты вместе с бизнесом для раскрытия информации.

Есть еще много разных ролей Data Science, которые почти невозможно охватить в этой статье. Вы можете ознакомиться с ними на https://www.mygreatlearning.com/blog/ Different-data-science-jobs-roles-industry/

Давайте поговорим о шагах, необходимых для того, чтобы стать специалистом по данным.

Начните с изучения основ Python или R

Большинство людей, как правило, игнорируют эту часть и не слишком сосредотачиваются на основах Python или R. Однако, если вы действительно хорошо владеете одним из этих языков, то более сложные вещи будут довольно простыми.

В науке о данных Python и R являются наиболее часто используемыми языками. В большинстве случаев один может заменить другой, но они имеют разные области применения.

Основы Python включают следующее:

  • Настройка среды разработки Python
  • Изучение различных типов данных Python и структур данных Python
  • Операторы потока управления
  • Различные типы циклов и вложенные циклы
  • Функции, модули и импорт.
  • Обработка исключений
  • Объектно-ориентированное программирование (ООП) (включая инкапсуляцию, наследование, полиморфизм, абстракцию)

Вы можете посмотреть некоторые из моих лекций по Python для начинающих в моем репозитории GitHub: https://github.com/Shahzeb-A/Python-Lectures-for-Beginners

Математика и статистика

Математика и статистика являются действительно важной частью науки о данных, и большинство концепций вращается вокруг них. Однако это не означает, что вы должны быть экспертом в обоих или в одном из них. Я бы предложил охватить основы Академии Хана, которых будет достаточно для продолжения.

Статистика и вероятность: https://www.khanacademy.org/math/statistics-probability

Очистка данных

Очистка данных — это процесс исправления или удаления неверных, поврежденных, неправильно отформатированных, дублирующихся или неполных данных в наборе данных. При объединении нескольких источников данных существует множество возможностей для дублирования или неправильной маркировки данных.

Я бы хотел, чтобы примерно 60 % науки о данных вращалисьочистка данных большую часть времени, а остальные 40 % — это применение алгоритмов и обучающих моделей. Это может включать удаление пустых данных, повторяющихся данных, поврежденных данных и т. д.

Следует практиковать очистку данных, тренируясь с различными типами наборов данных. Вы можете найти несколько хороших наборов данных на https://www.kaggle.com. Kaggle — это платформа онлайн-сообщества для специалистов по данным и энтузиастов машинного обучения.

Kaggle позволяет пользователям сотрудничать с другими пользователями, находить и публиковать наборы данных, использовать блокноты со встроенным графическим процессором и соревноваться с другими учеными в решении задач обработки данных

Визуализация данных

Визуализация данных — это графическое представление информации и данных. Используя визуальные элементы, такие как диаграммы, графики и карты, инструменты визуализации данных предоставляют доступный способ увидеть и понять тенденции, выбросы и закономерности в данных.

Визуализация данных, которую выполняют эти ученые и исследователи данных, помогает им понимать наборы данных и выявлять закономерности и тенденции, которые в противном случае остались бы незамеченными.

Чтобы визуализировать данные, вы должны использовать некоторые из престижных библиотек по науке о данных:

  • Pandas (анализ данных Python) является обязательным в жизненном цикле науки о данных.
  • Matplotlib обладает мощными, но красивыми визуализациями.
  • Seaborn (Визуализация случайных распределений)

Машинное обучение

Машинное обучение (МО) — это тип искусственного интеллекта (ИИ), который позволяет программным приложениям точнее прогнозировать результаты без явного программирования для этого. Алгоритмы машинного обучения используют исторические данные в качестве входных данных для прогнозирования новых выходных значений.

Существуют различные алгоритмы машинного обучения, которые вы можете применить к своим данным. Некоторые из них включают:

  • Линейная регрессия (прогнозируйте значение переменной на основе значения другой переменной)
  • Логистическая регрессия (вероятность возникновения события, такого как голосование или неголосование, на основе заданного набора данных независимых переменных).
  • Дерево решений (древовидная модель решений и их возможных последствий, включая исходы случайных событий, затраты ресурсов и полезность)

Существует множество других алгоритмов машинного обучения, но их невозможно описать в этой статье.

Вы можете посмотреть их на: https://www.simplilearn.com/10-algorithms-machine-learning-engineers-need-to-know-article

Заключение

На этом обучение не останавливается. Как и в любой другой области, в науке о данных продолжается обучение. Эти навыки направят вас на путь науки о данных, но впереди еще долгий путь, и со временем в науку о данных внедряются все новые и новые технологии.