Недавно я закончил курс Лилиан Пирсон по основам науки о данных, который можно найти на LinkedIn и Lynda, и я очень рекомендую его! Курс представляет собой отличное введение во многие инструменты и методы Data Science. Курс по основам отлично балансирует между объяснением концепций и демонстрацией того, когда и как применять эти концепции на практике. Лилиан Пирсон — специалист по данным, основатель Data-Mania и автор книги Наука о данных для чайников. (*Я не получаю никаких доходов от покупки книги или веб-трафика по этой ссылке.) В моем профиле на github будут блокноты Jupyter для каждой концепции с примерами кода, а также пояснениями к коду. Понятия, в честь которых названы записные книжки, более подробно объясняются в верхней части каждой записной книжки.

Указатель записной книжки

Возможно, позже я углублюсь в отдельные темы, затронутые в этих заметках. Здесь много всего, поэтому есть много места для дальнейшего изучения этих тем.

1. Основы обработки данных

  • Фильтровать и выбирать данные
  • Обработать пропущенные значения
  • Удалить дубликаты
  • Объединение и преобразование данных
  • Группировать и агрегировать данные

2. Основы визуализации данных

  • Создание стандартных линейных, столбчатых и круговых диаграмм
  • Определить элементы сюжета
  • Формат графиков
  • Создание меток и аннотаций
  • Создание визуализаций из данных временных рядов
  • Построение гистограмм, коробчатых диаграмм и диаграмм рассеивания

3. Базовая математика и статистика

  • Используйте арифметику NumPy
  • Генерировать сводную статистику
  • суммировать категориальные данные
  • Параметрические методы
  • Непараметрические методы
  • преобразование распределений наборов данных

4. Уменьшение размерности

  • Введение в машинное обучение
  • Объяснительный факторный анализ
  • Анализ главных компонентов (PCA)

5. Анализ выбросов

  • Анализ экстремальных значений с использованием одномерных методов
  • Многомерный анализ для обнаружения выбросов
  • Метод линейной проекции для многомерных данных

6. Кластерный анализ

  • Метод К-средних
  • Иерархические методы
  • Обучение на основе экземпляров с k-ближайшим соседом

7. Сетевой анализ с помощью NetworkX

  • Введение в сетевой анализ
  • Работа с графическими объектами
  • Имитация социальной сети
  • Создавайте статистику по узлам и проверяйте графики

8. Базовое алгоритмическое обучение

  • Модель линейной регрессии
  • Модель логистической регрессии
  • Наивные байесовские классификаторы

9. Визуализация данных в Интернете с помощью Plotly

  • Создание базовых диаграмм
  • Создание статистических диаграмм
  • Создавайте карты Plotly choropleth
  • Создание карт точек Plotly

10. Просмотр веб-страниц с помощью Beautiful Soup

  • Введение в красивый суп
  • Исследуйте объекты navigatableString
  • Разобрать данные
  • Веб-скрапинг на практике