Давайте познакомимся с наукой о данных, от чего до того, как освоить
Итак, вам интересно узнать о данных? Medium - это платформа, рекомендованная Тором и Локи. Приступим к обсуждению.
Что такое наука о данных?
Многие статьи дают четкое определение науке о данных. Кэсси Козырков написала статью о путешествии по поиску простого, но значимого определения. Википедия дает четкое определение:
Наука о данных - это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из структурированных и неструктурированных данных.
Существует множество диаграмм, наглядно демонстрирующих, какие навыки необходимы для овладения наукой о данных. Битва диаграмм Венна в KDnuggets покажет вам некоторые из хорошо известных диаграмм, если не все. Выбирая среди этих диаграмм, я утверждаю, что последняя диаграмма (а не диаграмма Венна) больше подходит. Это все равно, что сказать нам игнорировать все границы каждой дисциплины, создать совершенно новую дисциплину науки о данных, а затем создать другие вспомогательные навыки для науки о данных за пределами круга науки о данных и направить стрелку для каждого из этих навыков в круг науки о данных.
На самом деле, это не проблема определения того, что означает наука о данных. Когда я был на уроке Основы математики II, мой учитель сказал нам, что мы полностью понимаем определение понятия, если и только мы можем указать, что такое и что не является примером этой концепции. Итак, на мой взгляд, вам решать, что на самом деле означает наука о данных, если мы можем указать, что есть, а что нет.
Это больше о науке и сотрудничестве
Я просто хочу пересмотреть фразу мультидисциплинарный и заменить ее фразой сотрудничество. Да, наука о данных - это область сотрудничества. Специалист по данным может даже большую часть времени нуждаться в помощи других людей (помимо этих трех областей - при условии, что эти области являются тем, что нужно освоить начинающему специалисту по данным).
В науке о данных есть «наука». Данные - это объект, а наука - это «как», как сделать данные полезными, как получить понимание из данных, как сделать выводы, используя данные, большинство из них относятся к науке. Наука о данных всегда связана с машинным обучением, чтобы использовать данные и делать выводы о будущем.
Юфэн Джи написал статью о том, что такое машинное обучение, и вы можете погрузиться непосредственно в него и в Google Cloud.
Почему существует Data Science?
Всем известно, что данные распространены повсеместно. Мы собираем данные каждый день намеренно и / или случайно. Эти большие данные превратились в массивные данные, с которыми обычные стратегии и исследования не могут справиться. Затем рождается наука о данных. Мы можем поспорить с этим предысторией, но, безусловно, наука о данных существует из-за потребностей современного процесса или метода для ее обработки. Следовательно, нам нужен компьютер, который поможет нам выполнять вычисления. Так что не будет преувеличением, если кто-то скажет, что специалист по данным - это статистик, умеющий программировать. Фактически, эти люди уже существуют еще до того, как появился термин data science.
Кроме того, машинное обучение стало важной частью науки о данных. Все объявления о вакансиях в области науки о данных требуют, чтобы кандидаты обладали знаниями в области машинного обучения, от традиционного машинного обучения, такого как линейная регрессия или SVM, и т. Д. До глубокого обучения, такого как CNN или LSTM.
Науки о данных существуют из-за потребностей. Это означает, что если вам (вашей компании) еще не нужна наука о данных, то пока не нанимайте специалиста по данным.
То, что вам нужно знать
Я считаю себя амбициозным специалистом по данным, но все еще стремящимся к этому. Мой опыт в реальной науке о данных все еще меньше, чем у других людей, которые называют себя специалистами по данным. Итак, я хочу поделиться тем, что вам (нам) нужно, чтобы быть (настоящим) специалистом по данным.
- Математика: исчисление, линейная алгебра, многомерное исчисление, оптимизация и т. д.
- Статистика: вероятность, проверка гипотез, распределение и т. д.
- Программирование: Python, R, Matlab, Octave, C ++ (выберите один или все)
- Машинное обучение: линейная регрессия, SVM, дерево решений, случайный лес и т. д.
- Глубокое обучение (необязательно): CNN, RNN, LSTM, GAN и т. д.
Кажется, слишком многому нужно научиться, но как только вы усвоите основы, интуицию за ее пределами, это будет намного проще. Даже мы можем быстрее изучить последние разработки в области исследований в области науки о данных и применить их самостоятельно.
Образовательные ресурсы
В Интернете так много ресурсов, которые вы можете просмотреть самостоятельно. Вы можете ввести «учебные ресурсы по науке о данных» или другие запросы, и тогда вы получите то, что хотите. Тем не менее, у некоторых публикаций со средним упоминанием есть своя собственная версия топ-ресурсов. Но вот ресурсы, из которых я узнал.
Это мой первый пост о науке о данных. Я надеюсь, что смогу писать статьи, связанные с наукой о данных, чаще. Увидимся в следующей статье!