План обучения основам науки о данных за 7 недель

Введение

Для людей, желающих изучить основы науки о данных, в этой статье обсуждаются некоторые темы, с которыми необходимо ознакомиться, чтобы овладеть основами науки о данных. Список предлагаемых тем не является исчерпывающим, но он включает темы, которые при внимательном изучении позволят учащемуся понять основы науки о данных и смогут начать применять полученные знания для простых задач по науке о данных.

Основные темы организованы таким образом, чтобы их можно было завершить за 7 недель интенсивных занятий (10–20 часов в неделю). Людям с солидным опытом работы в аналитических дисциплинах, таких как математика, физика, информатика, инженерия или экономика, следует ожидать, что они потратят меньше рекомендованного количества времени на изучение предлагаемых тем.

Неделя 1: Основы математики

Если вы немного устали от своих математических навыков, вот темы, по которым стоит освежиться:

  • Статистика и вероятность:: среднее, медиана, мода, стандартное отклонение / дисперсия, коэффициент корреляции и ковариационная матрица, распределения вероятностей (биномиальное, пуассоновское, нормальное), p-значение, MSE (среднеквадратичная ошибка), оценка R2, теорема Бая (точность, отзыв, положительное прогнозное значение, отрицательное прогнозируемое значение, матрица неточности, кривая ROC), A / B-тестирование, моделирование Монте-Карло
  • Многовариантное исчисление: функции нескольких переменных, производные и градиенты, ступенчатая функция, сигмовидная функция, логит-функция, функция ReLU (выпрямленная линейная единица), функция стоимости, построение графиков функций, минимальное и максимальное значения функции.
  • Линейная алгебра: векторы, матрицы, транспонирование матрицы, обратная матрица, определитель матрицы, точечное произведение, собственные значения, собственные векторы, след матрицы.
  • Методы оптимизации: функция затрат / целевая функция, функция правдоподобия, функция ошибок, алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска).

Неделя 2: Основы программирования

Ознакомьтесь с использованием следующих библиотек Python:

  • Matplotlib
  • Сиборн
  • Scikit-learn
  • Панды
  • Неуклюжий

Неделя 3: Основы данных

Иметь базовые знания о следующих понятиях:

  • Понимание различных источников данных, которые можно использовать для проектов в области науки о данных
  • Как разрабатывать эксперименты для сбора данных или моделирования данных, когда данные недоступны
  • Обработка данных, процесс преобразования данных из необработанной формы в аккуратную форму, готовую для анализа
  • Несовершенства данных, такие как пропущенные значения, выбросы и т. Д.
  • Предварительная обработка данных в форму, готовую для использования в анализе или построении модели, например, стандартизация данных, нормализация данных, кодирование категориальных переменных и т. д.
  • Импорт и экспорт данных в файлы CSV

Неделя 4: Основы уменьшения размерности

Разберитесь в следующих понятиях:

  • Диаграмма разброса пар
  • Снижение размерности с помощью ковариационной матрицы
  • Снижение размерности с помощью анализа главных компонентов (PCA)
  • Снижение размерности с помощью линейного дискриминантного анализа (LDA)

Неделя 5: Основы визуализации данных

Изучите основные визуализации данных, такие как:

  • диаграмма рассеяния
  • линейный график
  • заговор
  • гистограмма
  • круговая диаграмма
  • коробчатый сюжет
  • график плотности
  • парный сюжет
  • тепловые карты

Неделя 6: Основы линейной регрессии

Поймите следующее:

  • Простая линейная регрессия (одна переменная-предиктор)
  • Множественная линейная регрессия (более одной переменной-предиктора)
  • Выполните линейную регрессию с помощью Scikit-learn
  • Оцените регрессионную модель, используя такие параметры, как среднеквадратическая ошибка (MSE), средняя абсолютная ошибка (MAE) и балл R2.
  • Понять концепцию переобучения и недостаточного оснащения

Неделя 7: Основы классификаторов машинного обучения

Ознакомьтесь с такими алгоритмами двоичной классификации, как:

  • Классификатор перцептронов
  • Классификатор логистической регрессии
  • Машинный классификатор опорных векторов
  • Классификатор дерева решений
  • Классификатор ближайшего соседа по K
  • Изучите несколько показателей для оценки проблемы классификации, таких как точность, чувствительность, специфичность, точность, отзывчивость, оценка f-1, матрица неточности, кривая ROC.

Резюме

Таким образом, мы обсудили важные темы в области науки о данных, освоение которых позволит учащемуся научиться выполнять простые задачи по науке о данных. Путь к науке о данных очень долгий, поскольку новые методы и алгоритмы быстро развиваются в беспрецедентных масштабах. Список обсуждаемых здесь тем никоим образом не является всеобъемлющим, но он был выбран в качестве учебного пособия для начинающих, заинтересованных в изучении основ науки о данных.