Урок 1. Введение в машинное обучение
- Машинное обучение — это подмножество искусственного интеллекта, которое включает в себя обучение модели изучению закономерностей на основе данных и выработке прогнозов или решений.
- Контролируемое обучение: модель учится на размеченных данных (пары ввода-вывода) и делает прогнозы для новых входных данных.
- Неконтролируемое обучение: модель учится на немаркированных данных и выявляет закономерности, такие как кластеризация или уменьшение размерности.
- Обучение с подкреплением: модель учится, взаимодействуя с окружающей средой и получая обратную связь в виде вознаграждений или штрафов.
Урок 2. Масштабирование функций
- Масштабирование объектов — это процесс преобразования объектов в вашем наборе данных в аналогичный масштаб, что важно для многих алгоритмов машинного обучения.
- Общие методы: нормализация (минимально-максимальное масштабирование) и стандартизация (масштабирование z-показателя).
- Примените масштабирование функций как к обучающим, так и к тестовым наборам, используя параметры масштабирования из обучающего набора.
Урок 3. Работа с отсутствующими данными
- Отсутствующие данные могут привести к предвзятым или неверным результатам при обучении модели машинного обучения.
- Общие методы: удалите строки с отсутствующими данными, заполните отсутствующие значения константой или средним/медианным/модальным, используйте методы вменения или используйте модели машинного обучения, которые могут обрабатывать отсутствующие данные.
- Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры из обучающего набора.
Урок 4. Работа с категориальными признаками
- Преобразуйте категориальные признаки в числовые значения, прежде чем использовать их в моделях машинного обучения.
- Распространенные методы: кодирование меток и горячее кодирование.
- Примените выбранный метод как к обучающим, так и к тестовым наборам, используя параметры кодирования из обучающего набора.
Урок 5. Оценка и выбор модели
- Оценка модели помогает оценить, насколько хорошо модель машинного обучения работает с невидимыми данными.
- Общие показатели: точность, точность, отзыв, оценка F1 (классификация); MAE, MSE, RMSE, R-квадрат (регрессия).
- Методы выбора модели: разделение поезд-тест, k-кратная перекрестная проверка, поиск по сетке и рандомизированный поиск.
- Сравните производительность моделей и выберите лучшую для вашей задачи.