Резюме: Урок 1

Урок 1. Введение в машинное обучение

Машинное обучение — это подмножество искусственного интеллекта, которое включает в себя обучение модели изучению закономерностей на основе данных и выработке прогнозов или решений.
Контролируемое обучение: модель учится на размеченных данных (пары ввода-вывода) и делает прогнозы для новых входных данных.
Неконтролируемое обучение: модель учится на немаркированных данных и выявляет закономерности, такие как кластеризация или уменьшение размерности.
Обучение с подкреплением: модель учится, взаимодействуя с окружающей средой и получая обратную связь в виде вознаграждений или штрафов.

Урок 2. Масштабирование функций

Масштабирование объектов — это процесс преобразования объектов в вашем наборе данных в аналогичный масштаб, что важно для многих алгоритмов машинного обучения.
Общие методы: нормализация (минимально-максимальное масштабирование) и стандартизация (масштабирование z-показателя).
Примените масштабирование функций как к обучающим, так и к тестовым наборам, используя параметры масштабирования из обучающего набора.

Урок 3. Работа с отсутствующими данными

Отсутствующие данные могут привести к предвзятым или неверным результатам при обучении модели машинного обучения.
Общие методы: удалите строки с отсутствующими данными, заполните отсутствующие значения константой или средним/медианным/модальным, используйте методы вменения или используйте модели машинного обучения, которые могут обрабатывать отсутствующие данные.
Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры из обучающего набора.

Урок 4. Работа с категориальными признаками

Преобразуйте категориальные признаки в числовые значения, прежде чем использовать их в моделях машинного обучения.
Распространенные методы: кодирование меток и горячее кодирование.
Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры кодирования из обучающего набора.

Урок 5. Оценка и выбор модели

Оценка модели помогает оценить, насколько хорошо модель машинного обучения работает с невидимыми данными.
Общие показатели: точность, точность, отзыв, оценка F1 (классификация); MAE, MSE, RMSE, R-квадрат (регрессия).
Методы выбора модели: разделение поезд-тест, k-кратная перекрестная проверка, поиск по сетке и рандомизированный поиск.
Сравните производительность моделей и выберите лучшую для вашей задачи.

Резюме: Урок 1 — Урок 5