Недавно я закончил курс Лилиан Пирсон по основам науки о данных, который можно найти на LinkedIn и Lynda, и я очень рекомендую его! Курс представляет собой отличное введение во многие инструменты и методы Data Science. Курс по основам отлично балансирует между объяснением концепций и демонстрацией того, когда и как применять эти концепции на практике. Лилиан Пирсон — специалист по данным, основатель Data-Mania и автор книги Наука о данных для чайников. (*Я не получаю никаких доходов от покупки книги или веб-трафика по этой ссылке.) В моем профиле на github будут блокноты Jupyter для каждой концепции с примерами кода, а также пояснениями к коду. Понятия, в честь которых названы записные книжки, более подробно объясняются в верхней части каждой записной книжки.
Указатель записной книжки
Возможно, позже я углублюсь в отдельные темы, затронутые в этих заметках. Здесь много всего, поэтому есть много места для дальнейшего изучения этих тем.
1. Основы обработки данных
- Фильтровать и выбирать данные
- Обработать пропущенные значения
- Удалить дубликаты
- Объединение и преобразование данных
- Группировать и агрегировать данные
2. Основы визуализации данных
- Создание стандартных линейных, столбчатых и круговых диаграмм
- Определить элементы сюжета
- Формат графиков
- Создание меток и аннотаций
- Создание визуализаций из данных временных рядов
- Построение гистограмм, коробчатых диаграмм и диаграмм рассеивания
3. Базовая математика и статистика
- Используйте арифметику NumPy
- Генерировать сводную статистику
- суммировать категориальные данные
- Параметрические методы
- Непараметрические методы
- преобразование распределений наборов данных
4. Уменьшение размерности
- Введение в машинное обучение
- Объяснительный факторный анализ
- Анализ главных компонентов (PCA)
5. Анализ выбросов
- Анализ экстремальных значений с использованием одномерных методов
- Многомерный анализ для обнаружения выбросов
- Метод линейной проекции для многомерных данных
6. Кластерный анализ
- Метод К-средних
- Иерархические методы
- Обучение на основе экземпляров с k-ближайшим соседом
7. Сетевой анализ с помощью NetworkX
- Введение в сетевой анализ
- Работа с графическими объектами
- Имитация социальной сети
- Создавайте статистику по узлам и проверяйте графики
8. Базовое алгоритмическое обучение
- Модель линейной регрессии
- Модель логистической регрессии
- Наивные байесовские классификаторы
9. Визуализация данных в Интернете с помощью Plotly
- Создание базовых диаграмм
- Создание статистических диаграмм
- Создавайте карты Plotly choropleth
- Создание карт точек Plotly
10. Просмотр веб-страниц с помощью Beautiful Soup
- Введение в красивый суп
- Исследуйте объекты navigatableString
- Разобрать данные
- Веб-скрапинг на практике