План обучения основам науки о данных за 7 недель
Введение
Для людей, желающих изучить основы науки о данных, в этой статье обсуждаются некоторые темы, с которыми необходимо ознакомиться, чтобы овладеть основами науки о данных. Список предлагаемых тем не является исчерпывающим, но он включает темы, которые при внимательном изучении позволят учащемуся понять основы науки о данных и смогут начать применять полученные знания для простых задач по науке о данных.
Основные темы организованы таким образом, чтобы их можно было завершить за 7 недель интенсивных занятий (10–20 часов в неделю). Людям с солидным опытом работы в аналитических дисциплинах, таких как математика, физика, информатика, инженерия или экономика, следует ожидать, что они потратят меньше рекомендованного количества времени на изучение предлагаемых тем.
Неделя 1: Основы математики
Если вы немного устали от своих математических навыков, вот темы, по которым стоит освежиться:
- Статистика и вероятность:: среднее, медиана, мода, стандартное отклонение / дисперсия, коэффициент корреляции и ковариационная матрица, распределения вероятностей (биномиальное, пуассоновское, нормальное), p-значение, MSE (среднеквадратичная ошибка), оценка R2, теорема Бая (точность, отзыв, положительное прогнозное значение, отрицательное прогнозируемое значение, матрица неточности, кривая ROC), A / B-тестирование, моделирование Монте-Карло
- Многовариантное исчисление: функции нескольких переменных, производные и градиенты, ступенчатая функция, сигмовидная функция, логит-функция, функция ReLU (выпрямленная линейная единица), функция стоимости, построение графиков функций, минимальное и максимальное значения функции.
- Линейная алгебра: векторы, матрицы, транспонирование матрицы, обратная матрица, определитель матрицы, точечное произведение, собственные значения, собственные векторы, след матрицы.
- Методы оптимизации: функция затрат / целевая функция, функция правдоподобия, функция ошибок, алгоритм градиентного спуска и его варианты (например, алгоритм стохастического градиентного спуска).
Неделя 2: Основы программирования
Ознакомьтесь с использованием следующих библиотек Python:
- Matplotlib
- Сиборн
- Scikit-learn
- Панды
- Неуклюжий
Неделя 3: Основы данных
Иметь базовые знания о следующих понятиях:
- Понимание различных источников данных, которые можно использовать для проектов в области науки о данных
- Как разрабатывать эксперименты для сбора данных или моделирования данных, когда данные недоступны
- Обработка данных, процесс преобразования данных из необработанной формы в аккуратную форму, готовую для анализа
- Несовершенства данных, такие как пропущенные значения, выбросы и т. Д.
- Предварительная обработка данных в форму, готовую для использования в анализе или построении модели, например, стандартизация данных, нормализация данных, кодирование категориальных переменных и т. д.
- Импорт и экспорт данных в файлы CSV
Неделя 4: Основы уменьшения размерности
Разберитесь в следующих понятиях:
- Диаграмма разброса пар
- Снижение размерности с помощью ковариационной матрицы
- Снижение размерности с помощью анализа главных компонентов (PCA)
- Снижение размерности с помощью линейного дискриминантного анализа (LDA)
Неделя 5: Основы визуализации данных
Изучите основные визуализации данных, такие как:
- диаграмма рассеяния
- линейный график
- заговор
- гистограмма
- круговая диаграмма
- коробчатый сюжет
- график плотности
- парный сюжет
- тепловые карты
Неделя 6: Основы линейной регрессии
Поймите следующее:
- Простая линейная регрессия (одна переменная-предиктор)
- Множественная линейная регрессия (более одной переменной-предиктора)
- Выполните линейную регрессию с помощью Scikit-learn
- Оцените регрессионную модель, используя такие параметры, как среднеквадратическая ошибка (MSE), средняя абсолютная ошибка (MAE) и балл R2.
- Понять концепцию переобучения и недостаточного оснащения
Неделя 7: Основы классификаторов машинного обучения
Ознакомьтесь с такими алгоритмами двоичной классификации, как:
- Классификатор перцептронов
- Классификатор логистической регрессии
- Машинный классификатор опорных векторов
- Классификатор дерева решений
- Классификатор ближайшего соседа по K
- Изучите несколько показателей для оценки проблемы классификации, таких как точность, чувствительность, специфичность, точность, отзывчивость, оценка f-1, матрица неточности, кривая ROC.
Резюме
Таким образом, мы обсудили важные темы в области науки о данных, освоение которых позволит учащемуся научиться выполнять простые задачи по науке о данных. Путь к науке о данных очень долгий, поскольку новые методы и алгоритмы быстро развиваются в беспрецедентных масштабах. Список обсуждаемых здесь тем никоим образом не является всеобъемлющим, но он был выбран в качестве учебного пособия для начинающих, заинтересованных в изучении основ науки о данных.