7 недель Python Pre-Data Science

План обучения основам науки о данных за 7 недель

Введение

Для людей, желающих изучить основы науки о данных, в этой статье обсуждаются некоторые темы, с которыми необходимо ознакомиться, чтобы овладеть основами науки о данных. Список предлагаемых тем не является исчерпывающим, но он включает темы, которые при внимательном изучении позволят учащемуся понять основы науки о данных и смогут начать применять полученные знания для простых задач по науке о данных.

Основные темы организованы таким образом, чтобы их можно было завершить за 7 недель интенсивных занятий (10–20 часов в неделю). Людям с солидным опытом работы в аналитических дисциплинах, таких как математика, физика, информатика, инженерия или экономика, следует ожидать, что они потратят меньше рекомендованного количества времени на изучение предлагаемых тем.

Неделя 1: Основы математики

Если вы немного устали от своих математических навыков, вот темы, по которым стоит освежиться:

Статистика и вероятность:: среднее, медиана, мода, стандартное отклонение / дисперсия, коэффициент корреляции и ковариационная матрица, распределения вероятностей (биномиальное, пуассоновское, нормальное), p-значение, MSE (среднеквадратичная ошибка), оценка R2, теорема Бая (точность, отзыв, положительное прогнозное значение, отрицательное прогнозируемое значение, матрица неточности, кривая ROC), A / B-тестирование, моделирование Монте-Карло
Многовариантное исчисление: функции нескольких переменных, производные и градиенты, ступенчатая функция, сигмовидная функция, логит-функция, функция ReLU (выпрямленная линейная единица), функция стоимости, построение графиков функций, минимальное и максимальное значения функции.
Линейная алгебра: векторы, матрицы, транспонирование матрицы, обратная матрица, определитель матрицы, точечное произведение, собственные значения, собственные векторы, след матрицы.
Методы оптимизации: функция затрат / целевая функция, функция правдоподобия, функция ошибок, алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска).

Неделя 2: Основы программирования

Ознакомьтесь с использованием следующих библиотек Python:

Matplotlib
Сиборн
Scikit-learn
Панды
Неуклюжий

Неделя 3: Основы данных

Иметь базовые знания о следующих понятиях:

Понимание различных источников данных, которые можно использовать для проектов в области науки о данных
Как разрабатывать эксперименты для сбора данных или моделирования данных, когда данные недоступны
Обработка данных, процесс преобразования данных из необработанной формы в аккуратную форму, готовую для анализа
Несовершенства данных, такие как пропущенные значения, выбросы и т. Д.
Предварительная обработка данных в форму, готовую для использования в анализе или построении модели, например, стандартизация данных, нормализация данных, кодирование категориальных переменных и т. д.
Импорт и экспорт данных в файлы CSV

Неделя 4: Основы уменьшения размерности

Разберитесь в следующих понятиях:

Диаграмма разброса пар
Снижение размерности с помощью ковариационной матрицы
Снижение размерности с помощью анализа главных компонентов (PCA)
Снижение размерности с помощью линейного дискриминантного анализа (LDA)

Неделя 5: Основы визуализации данных

Изучите основные визуализации данных, такие как:

диаграмма рассеяния
линейный график
заговор
гистограмма
круговая диаграмма
коробчатый сюжет
график плотности
парный сюжет
тепловые карты

Неделя 6: Основы линейной регрессии

Поймите следующее:

Простая линейная регрессия (одна переменная-предиктор)
Множественная линейная регрессия (более одной переменной-предиктора)
Выполните линейную регрессию с помощью Scikit-learn
Оцените регрессионную модель, используя такие параметры, как среднеквадратическая ошибка (MSE), средняя абсолютная ошибка (MAE) и балл R2.
Понять концепцию переобучения и недостаточного оснащения

Неделя 7: Основы классификаторов машинного обучения

Ознакомьтесь с такими алгоритмами двоичной классификации, как:

Классификатор перцептронов
Классификатор логистической регрессии
Машинный классификатор опорных векторов
Классификатор дерева решений
Классификатор ближайшего соседа по K
Изучите несколько показателей для оценки проблемы классификации, таких как точность, чувствительность, специфичность, точность, отзывчивость, оценка f-1, матрица неточности, кривая ROC.

Резюме

Таким образом, мы обсудили важные темы в области науки о данных, освоение которых позволит учащемуся научиться выполнять простые задачи по науке о данных. Путь к науке о данных очень долгий, поскольку новые методы и алгоритмы быстро развиваются в беспрецедентных масштабах. Список обсуждаемых здесь тем никоим образом не является всеобъемлющим, но он был выбран в качестве учебного пособия для начинающих, заинтересованных в изучении основ науки о данных.