Начните свою карьеру в области науки о данных здесь!
Сегодня наука о данных - это быстро развивающаяся отрасль, которую часто называют «самой сексуальной работой в мире». Однако вручную исследовать и находить подходящие учебные ресурсы, чтобы начать свое путешествие, может оказаться сложной задачей. Мы в Data Science Library собрали обширный указатель онлайн-курсов, видео, публикаций на Medium и книг, которые помогут вам начать свое путешествие. Пожалуйста, наслаждайтесь!
Узнайте, как использовать Git:
Git - очень сложная для объяснения часть программного обеспечения, но есть несколько хороших постов на Medium, которые подробно их объясняют, например, этот и этот. Мы настоятельно рекомендуем вам прочитать их обоих, прежде чем пытаться просмотреть эти 2 перечисленных ресурса Git.
- Git и GitHub для начинающих (серия видео): эта короткая серия видео предоставляет новичкам доступное введение в Git и GitHub и то, как их использовать вместе.
- Pro Git (онлайн-книга): в первых нескольких главах содержится вдумчивое введение в Git, а в последующих главах рассматриваются более сложные темы, такие как интеграция с GitHub и рабочие процессы в крупных проектах. Это один из наиболее доступных онлайн-ресурсов Git, так как он обучает концепциям (а также коду) доступным и логичным способом.
Наука о данных
Гигантская область науки о данных включает в себя статистику, информатику и бизнес-знания, и все это делается для извлечения ценной информации из данных. Есть множество ресурсов, чтобы узнать об этом, но мы собрали несколько чрезвычайно полезных видео по этой теме. Некоторые из них созданы уважаемыми университетами, такими как Стэнфорд и Массачусетский технологический институт, поэтому любому начинающему специалисту по анализу данных в колледже обязательно стоит взглянуть на них. Это может быть именно то, с чем вы столкнетесь в ближайшем будущем!
- Основы науки о данных от Microsoft Research
- MIT 6.0002: Введение в вычислительное мышление и науку о данных, осень 2016
- Наука о данных в Университете Стоуни-Брук
- Наука о данных с Datacamp
- Наука о данных с Udacity
- Edureka Data Science Course (проектное обучение)
- Введение в большие данные с PySpark
- Машинное обучение | Стэнфорд
- CS190.1x: масштабируемое машинное обучение | Калифорнийский университет в Беркли
- Творческие приложения глубокого обучения с TensorFlow
- Введение в машинное обучение от Udacity
- Онлайн-курс по борьбе с данными с помощью MongoDB | Udacity
SQL
Язык структурированных запросов, также известный как SQL, является важным языком программирования для всех, кто интересуется наукой о данных. Это стандартный язык для доступа к базам данных и управления ими. Есть сотни мест, где можно этому научиться, поэтому вот несколько из них. Определенно научитесь этому в первую очередь, так как это не так уж сложно и удивительно легко освоить!
- Курс SQL для начинающих
- Введение в SQL для W3Schools
- Реляционные базы данных профессора Грега Хэя
- Руководства по SQL Server для начинающих
- Обучающие видео по SQL Server
- Вопросы и ответы на собеседовании по SQL Server
- Интервью с администратором баз данных SQL Server: вопросы и ответы от компании Tech Brothers
- Чрезвычайно сложные вопросы по SQL
Визуализация данных и аналитика
Красота науки о данных заключается в том, что, получив информацию, вы можете делать с ней практически все. От создания ваших собственных индивидуальных диаграмм рассеяния до разработки функций для поиска тенденций в ваших данных - эти источники помогут вам овладеть искусством представления своих результатов миру!
- Tableau - Сделай сам Учебник - Начало работы - обучение на основе проектов
- Продвинутая таблица
- Визуализация данных с помощью Edureka Tableau
- Аналитика данных с помощью Tableau
- Анализ и визуализация данных с помощью Microsoft Power BI | Начало работы с BI
- Справочное руководство по Tableau
D3
От потоковых графиков до часов Вороного и полярных часов - практически нет ограничений на типы визуализации данных, которые вы можете сделать с помощью библиотеки JavaScript D3.
Изучите D3:
- Введение: https://www.dashingd3js.com/introductory-d3-course
- Промежуточный: https://www.dashingd3js.com/intermediate-d3-course
- Официальные руководства по D3: https://github.com/d3/d3/wiki/Tutorials
- D3 Скотта Мюррея: http://alignedleft.com/tutorials/d3
- Ссылка на D3 API: https://github.com/d3/d3/blob/master/API.md
Вот еще один ресурс для интерактивной визуализации данных, взятый из курса информатики UW!
Веб-парсинг
Веб-скрапинг - это, по сути, процесс извлечения больших объемов данных с веб-сайта с последующим сохранением всей этой информации в таблице или электронной таблице на вашем компьютере. Это несколько сложно, но может быть очень полезно для создания баз данных для использования в ваших собственных проектах, поэтому стоит проверить, как только ваши навыки работы с данными станут более совершенными.
- Python Web Scraping
- Веб-парсинг с помощью Node.js
- Веб-парсинг с помощью Node.js от jfWiz
- Веб-парсинг с помощью Scrappy
Машинное обучение:
Машинное обучение - это особый метод анализа данных, который использует различные алгоритмы и статистические модели для автоматизации компьютеров, чтобы они могли действовать и прогнозировать результаты практически без вмешательства человека. Это звучит сложно, и в целом так оно и есть, но с перечисленными нами курсами вы можете начать погружаться в эту глубокую тему. Расплата того стоит, и любой достойный специалист по данным скажет вам!
- 15 часов экспертного машинного обучения от Data School
- Статистическое обучение (9-недельный онлайн-курс): преподают Тревор Хасти и Роб Тибширани из Стэнфорда с использованием их нового учебника Введение в статистическое обучение. Он охватывает широкий спектр методов обучения с учителем и несколько методов обучения без учителя. Они охватывают математику и концепции, лежащие в основе каждого метода, а затем работают над примерами реализаций на R. Хотя этот курс, на мой вкус, был немного перегружен математикой и легким применением, учебник фантастический, и они явно мастера этого материала.
- Введение в статистическое обучение: бесплатная загрузка учебника в формате PDF
- Решения к упражнениям из учебника: неофициальные и неполные ответы на GitHub
- Приложения для машинного обучения (ссылки): это тщательно подобранный список ссылок на новостные статьи и исследования о том, как машинное обучение используется для решения интересных реальных проблем.
Обработка естественного языка
(рекомендовано Рэнди Лао)
Сокращенно NLP, это подмножество информатики и информационной инженерии, которое сосредоточено вокруг искусственного интеллекта. В частности, он направлен на то, чтобы заставить компьютеры понимать и обрабатывать человеческие языки, чтобы они могли приблизиться к нашему уровню понимания. Это увлекательная область высокого уровня, которую определенно стоит изучить, если у вас есть интерес. Некоторые говорят, что будущее за искусственным интеллектом, так что это ваш шанс попасть на волну, пока вы еще можете!
Основные концепции:
- Решения к упражнениям из учебника: неофициальные и неполные ответы на GitHub
- Введение в пакет слов (CountVectorizer, TFIDF, HashVectorizer)
- Предварительная обработка текста (удаление стоп-слов, токенизация, стемминг / лемматизация)
- Словесные векторы
- Учебник по регулярным выражениям
Стандартные библиотеки НЛП:
Проекты НЛП
- Создайте простого чат-бота с нуля
- Веб-парсинг и анализ настроений
- Важность текстовых функций с ELI5
- Тематическое моделирование - скрытое распределение Дирихле (LDA)
Щелкните здесь, чтобы узнать, как решить 90% проблем НЛП!
Спасибо за чтение! Если вам понравились эти ресурсы, пожалуйста, дайте нам аплодисменты. Кроме того, особое спасибо Рэнди Лао за рекомендацию множества этих ресурсов и Санджею Унни за редактирование этой статьи. Добавьте сюда Рэнди в LinkedIn! Добавьте сюда Санджая в LinkedIn!