Давайте познакомимся с наукой о данных, от чего до того, как освоить

Итак, вам интересно узнать о данных? Medium - это платформа, рекомендованная Тором и Локи. Приступим к обсуждению.

Что такое наука о данных?

Многие статьи дают четкое определение науке о данных. Кэсси Козырков написала статью о путешествии по поиску простого, но значимого определения. Википедия дает четкое определение:

Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из структурированных и неструктурированных данных.

Существует множество диаграмм, наглядно демонстрирующих, какие навыки необходимы для овладения наукой о данных. Битва диаграмм Венна в KDnuggets покажет вам некоторые из хорошо известных диаграмм, если не все. Выбирая среди этих диаграмм, я утверждаю, что последняя диаграмма (а не диаграмма Венна) больше подходит. Это все равно, что сказать нам игнорировать все границы каждой дисциплины, создать совершенно новую дисциплину науки о данных, а затем создать другие вспомогательные навыки для науки о данных за пределами круга науки о данных и направить стрелку для каждого из этих навыков в круг науки о данных.

На самом деле, это не проблема определения того, что означает наука о данных. Когда я был на уроке Основы математики II, мой учитель сказал нам, что мы полностью понимаем определение понятия, если и только мы можем указать, что такое и что не является примером этой концепции. Итак, на мой взгляд, вам решать, что на самом деле означает наука о данных, если мы можем указать, что есть, а что нет.

Это больше о науке и сотрудничестве

Я просто хочу пересмотреть фразу мультидисциплинарный и заменить ее фразой сотрудничество. Да, наука о данных - это область сотрудничества. Специалист по данным может даже большую часть времени нуждаться в помощи других людей (помимо этих трех областей - при условии, что эти области являются тем, что нужно освоить начинающему специалисту по данным).

В науке о данных есть «наука». Данные - это объект, а наука - это «как», как сделать данные полезными, как получить понимание из данных, как сделать выводы, используя данные, большинство из них относятся к науке. Наука о данных всегда связана с машинным обучением, чтобы использовать данные и делать выводы о будущем.

Юфэн Джи написал статью о том, что такое машинное обучение, и вы можете погрузиться непосредственно в него и в Google Cloud.

Почему существует Data Science?

Всем известно, что данные распространены повсеместно. Мы собираем данные каждый день намеренно и / или случайно. Эти большие данные превратились в массивные данные, с которыми обычные стратегии и исследования не могут справиться. Затем рождается наука о данных. Мы можем поспорить с этим предысторией, но, безусловно, наука о данных существует из-за потребностей современного процесса или метода для ее обработки. Следовательно, нам нужен компьютер, который поможет нам выполнять вычисления. Так что не будет преувеличением, если кто-то скажет, что специалист по данным - это статистик, умеющий программировать. Фактически, эти люди уже существуют еще до того, как появился термин data science.

Кроме того, машинное обучение стало важной частью науки о данных. Все объявления о вакансиях в области науки о данных требуют, чтобы кандидаты обладали знаниями в области машинного обучения, от традиционного машинного обучения, такого как линейная регрессия или SVM, и т. Д. До глубокого обучения, такого как CNN или LSTM.

Науки о данных существуют из-за потребностей. Это означает, что если вам (вашей компании) еще не нужна наука о данных, то пока не нанимайте специалиста по данным.

То, что вам нужно знать

Я считаю себя амбициозным специалистом по данным, но все еще стремящимся к этому. Мой опыт в реальной науке о данных все еще меньше, чем у других людей, которые называют себя специалистами по данным. Итак, я хочу поделиться тем, что вам (нам) нужно, чтобы быть (настоящим) специалистом по данным.

  1. Математика: исчисление, линейная алгебра, многомерное исчисление, оптимизация и т. д.
  2. Статистика: вероятность, проверка гипотез, распределение и т. д.
  3. Программирование: Python, R, Matlab, Octave, C ++ (выберите один или все)
  4. Машинное обучение: линейная регрессия, SVM, дерево решений, случайный лес и т. д.
  5. Глубокое обучение (необязательно): CNN, RNN, LSTM, GAN и т. д.

Кажется, слишком многому нужно научиться, но как только вы усвоите основы, интуицию за ее пределами, это будет намного проще. Даже мы можем быстрее изучить последние разработки в области исследований в области науки о данных и применить их самостоятельно.

Образовательные ресурсы

В Интернете так много ресурсов, которые вы можете просмотреть самостоятельно. Вы можете ввести «учебные ресурсы по науке о данных» или другие запросы, и тогда вы получите то, что хотите. Тем не менее, у некоторых публикаций со средним упоминанием есть своя собственная версия топ-ресурсов. Но вот ресурсы, из которых я узнал.

  1. Kaggle
  2. Udacity
  3. Удэмы
  4. "Середина"
  5. KDnuggets
  6. Элитная наука о данных

Это мой первый пост о науке о данных. Я надеюсь, что смогу писать статьи, связанные с наукой о данных, чаще. Увидимся в следующей статье!