Глава 2: Комплексный проект машинного обучения

В этой главе мы будем работать над сквозным проектом ML, используя набор данных реального слова.

Основные шаги в любом проекте машинного обучения

  1. Сформулируйте проблему.
  2. Соберите набор данных.
  3. Откройте для себя и визуализируйте данные, чтобы получить представление.
  4. Подготовьте данные для алгоритмов машинного обучения.
  5. Выберите модель и обучите ее.
  6. Настройте свою модель.
  7. Представьте свое решение.

Кратко расскажем о каждом пункте.

Сформулируйте проблему

Вы должны определить:

  • Какие алгоритмы вы выберете?
  • Какие показатели производительности вы будете использовать для оценки вашей модели?
  • Является ли проблема контролируемой или неконтролируемой?
  • Это классификация или регрессия или что-то еще?

Соберите набор данных

Вы можете собирать данные самостоятельно из организации, для которой вы сделали проект, или собирать их из Интернета (например, веб-скрейпинг), или из тысяч наборов данных с открытым исходным кодом, одним из самых популярных веб-сайтов является Kaggle. Вы можете найти данные, использованные в этой главе, помимо кода здесь: https://github.com/ageron/handson-ml2.

Откройте для себя и визуализируйте данные, чтобы получить представление и подготовить данные для машинного обучения

В этом разделе я напишу несколько советов, которые я узнал из книги, но лучше прочитать эту главу из книги, потому что там много важных деталей.

  1. Гистограммы говорят нам больше о распределении столбцов.
  2. Вы должны всегда устанавливать начальное число при разделении данных, чтобы они всегда генерировали одни и те же перемешанные индексы.
  3. Когда вы разделяете свой тестовый набор, убедитесь, что ваши данные стратифицированы.
  4. Коэффициент корреляции измеряет только линейную корреляцию, а коэффициенты, близкие к нулю, являются наиболее некоррелированными.

Выберите модель и обучите ее

В этой части вы пробуете разные модели и пытаетесь подогнать их к вашим обучающим данным, и в соответствии с меньшей ошибкой или большей точностью каждая модель дает вам. Вы прогнозируете значения тестовых данных, чтобы увидеть, как модель обобщается. Вам также может понадобиться использовать перекрестную проверку для одновременного обучения и проверки результатов и выбора лучших гиперпараметров, дающих наилучшие результаты.

Представьте свое решение

После очистки ваших данных, обучения вашей модели и точной настройки параметра, а затем обобщите результаты тестовых данных. Вы должны представить свои шаги, которые вы предприняли для достижения этих результатов. Используйте также визуализацию данных. Постарайтесь наилучшим образом представить свое решение заинтересованным сторонам проекта.

Наконец, я советую вам прочитать эту главу из книги, так как в ней очень подробно рассказывается о том, как вы создаете свой первый проект, и очень просто объясняется каждый шаг, кроме кода Python.