Создание проекта на основе машинного обучения обычно начинается с данных и заканчивается принятием решения на основе данных. Между этими двумя пунктами он включает в себя различные подэтапы, некоторые из которых являются обязательными, а некоторые мы используем для повышения производительности. Разделение данных — это один из тех подшагов, которые не только необходимы, но и при правильном выполнении мы можем получить плодотворные результаты от нашей модели. Итак, в этой статье мы обсудим основные концепции разделения данных в машинном обучении.

Давайте начнем с того, что узнаем, что такое разделение данных.

Что такое разделение данных?

В науке о данных или машинном обучении разделение данных проявляется, когда данные делятся на два или более подмножества, чтобы модель можно было обучить, протестировать и оценить.

На практике или в реальных проектах разделение данных является важным аспектом, и оно становится обязательным, когда модели основаны на данных, поскольку оно обеспечивает создание моделей машинного обучения. Обычно мы создаем две или три части основного набора данных.

  • Если есть два сплита, это означает, что один будет использоваться для обучения, а другой — для тестирования, или,
  • Если есть три разделения, это будет означать, что есть наборы для обучения, тестирования и проверки.

Допустим, у нас есть набор данных, в котором данные классифицированы по мужчинам и женщинам.

Мы знаем только две характеристики для каждого человека в данных: вес и высота голоса.

Перед моделированием этих данных мы выполняем процедуру разделения данных, чтобы определить наилучшую модель классификации для классификации данного значения данных как мужчины или женщины.

Как работает разделение данных?

При выполнении задач контролируемого машинного обучения всегда рекомендуется разбивать данные на три набора: набор для обучения, набор для тестирования и набор для проверки. Итак, в процедуре разделения данных сначала мы случайным образом разделяем данные на три набора:

  • Обучающий набор. Подмножество основного набора данных будет передано в модель, чтобы эта модель могла изучить шаблоны данных.
  • Проверочный набор. Этот набор используется для понимания производительности модели по сравнению с другими моделями и выбором гиперпараметров.
  • Тестовый набор. Этот набор проверяет точность конечной модели.

Давайте посмотрим на детали этих подмножеств данных.

Данные поезда

Подмножество данных отвечает за обучение модели. Обычно модель машинного обучения учится предсказывать, понимая закономерности и взаимосвязи, скрытые внутри данных. Модель будет учиться на закономерностях и взаимосвязях между переменными веса и шага в нашем примере.

При получении данных поезда из полных данных следует учитывать более высокую репрезентативность данных. Это означает, что извлеченные данные должны иметь достаточное количество для каждого класса данных. С этим качеством следует также убедиться, что извлеченные данные непредвзяты, поскольку предвзятые данные могут привести к неточной модели.

приведенный выше пример представляет проблему классификации данных на мужские и женские классы как задачу бинарной классификации. Чтобы решить эту проблему, мы можем использовать простую модель дерева решений.

Дерево решений будет обучаться, разделяя данные на узлы, используя выбранную функцию (Нет, Вес, Высота голоса или и Вес, и Высота голоса.

Данные проверки

При построении модели машинного обучения мы в основном пытаемся обучить более одной модели, изменяя параметры модели или используя разные алгоритмы. Например, при построении модели дерева решений для наших данных мы выполнили настройку гиперпараметров и обнаружили, что несколько моделей хорошо работают в таких условиях. Следовательно, нам нужно выбрать окончательную модель, используя разные параметры.

Было замечено, что если мы используем одни и те же данные для обучения и настройки модели, tr представляет собой чрезмерную приспособленность и становится неспособным к обобщению.

Здесь на сцену выходит проверочный набор данных, который работает как независимые и непредвзятые данные, что также помогает в сравнении производительности различных моделей.

Поскольку эти данные помогают выбрать наилучший алгоритм или параметр модели, мы запускаем модель в производство после аппроксимации ее производительности. Предлагается не использовать тестовые данные для оценки модели до выбора оптимальной.

Тестовые данные

Как обсуждалось в предыдущем разделе, после обучения, проверки и выбора модели мы должны запустить ее в производство после тестирования ее производительности для этого извлеченного подмножества данных, называемого тестовыми данными.

Мы должны быть очень осторожны с этим шагом, потому что, если его выполнить раньше времени, может возникнуть переоснащение и привести к ненадежной работе. Тестовый набор следует использовать в качестве окончательной формы оценки, когда использование проверочного набора завершено и выбрана окончательная модель.

Заключительные слова

В этой статье мы обсудили разделение данных в машинном обучении с использованием точек «что такое разделение данных», как оно работает и что такое набор для обучения, тестирования и проверки. Резюмируя статью, мы можем сделать следующие выводы:

  • Разделение данных становится необходимым шагом в моделировании машинного обучения, потому что оно помогает от обучения до оценки модели.
  • Мы должны разделить весь наш набор данных на три поднабора данных.
  • Количество обучающих данных должно быть выше, чем два других данных. Кроме того, она должна быть беспристрастной к любому классу или категории, чтобы модель могла адекватно учиться на данных.
  • Мы должны использовать проверочный набор для оценки нескольких моделей, чтобы найти наиболее эффективную модель.
  • После нахождения наиболее эффективной модели мы используем тестовый набор для количественной оценки производительности модели.

Разделение данных — это простой подэтап моделирования машинного обучения или моделирования данных, с помощью которого мы можем получить реалистичное представление о производительности модели. Кроме того, это помогает модели хорошо обобщать неизвестные или невидимые данные.

О ДСВ

Data Science Wizards (DSW) — это стартап в области искусственного интеллекта и науки о данных, который в первую очередь предлагает платформы, решения и услуги для использования данных в качестве стратегии с помощью решений для ИИ и анализа данных, а также консультационных услуг, чтобы помочь предприятиям принимать решения, основанные на данных. .

Флагманская платформа DSW UnifyAI — это комплексная платформа с поддержкой ИИ, позволяющая корпоративным клиентам создавать, развертывать, управлять и публиковать свои модели ИИ. UnifyAI помогает вам создать бизнес-вариант использования, используя возможности ИИ и улучшая результаты аналитики.

Свяжитесь с нами по адресу [email protected] и посетите нас на www.datasciencewizards.ai