Урок 1. Введение в машинное обучение

  • Машинное обучение — это подмножество искусственного интеллекта, которое включает в себя обучение модели изучению закономерностей на основе данных и выработке прогнозов или решений.
  • Контролируемое обучение: модель учится на размеченных данных (пары ввода-вывода) и делает прогнозы для новых входных данных.
  • Неконтролируемое обучение: модель учится на немаркированных данных и выявляет закономерности, такие как кластеризация или уменьшение размерности.
  • Обучение с подкреплением: модель учится, взаимодействуя с окружающей средой и получая обратную связь в виде вознаграждений или штрафов.

Урок 2. Масштабирование функций

  • Масштабирование объектов — это процесс преобразования объектов в вашем наборе данных в аналогичный масштаб, что важно для многих алгоритмов машинного обучения.
  • Общие методы: нормализация (минимально-максимальное масштабирование) и стандартизация (масштабирование z-показателя).
  • Примените масштабирование функций как к обучающим, так и к тестовым наборам, используя параметры масштабирования из обучающего набора.

Урок 3. Работа с отсутствующими данными

  • Отсутствующие данные могут привести к предвзятым или неверным результатам при обучении модели машинного обучения.
  • Общие методы: удалите строки с отсутствующими данными, заполните отсутствующие значения константой или средним/медианным/модальным, используйте методы вменения или используйте модели машинного обучения, которые могут обрабатывать отсутствующие данные.
  • Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры из обучающего набора.

Урок 4. Работа с категориальными признаками

  • Преобразуйте категориальные признаки в числовые значения, прежде чем использовать их в моделях машинного обучения.
  • Распространенные методы: кодирование меток и горячее кодирование.
  • Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры кодирования из обучающего набора.

Урок 5. Оценка и выбор модели

  • Оценка модели помогает оценить, насколько хорошо модель машинного обучения работает с невидимыми данными.
  • Общие показатели: точность, точность, отзыв, оценка F1 (классификация); MAE, MSE, RMSE, R-квадрат (регрессия).
  • Методы выбора модели: разделение поезд-тест, k-кратная перекрестная проверка, поиск по сетке и рандомизированный поиск.
  • Сравните производительность моделей и выберите лучшую для вашей задачи.