Поймите предвзятость на конкретном примере

Концепт

В науке о данных и машинном обучении предвзятость относится к проблеме, с которой мы можем столкнуться и повлиять на производительность модели и прогнозов.

Эту предвзятость легко понять, но трудно избежать, поскольку производительность модели во время обучения часто бывает хорошей. Таким образом, вы можете не увидеть видимых проблем.

В этой статье я проиллюстрирую эту предвзятость на простом примере (построю контролируемую модель для прогнозирования цены продукта). После этого мы углубимся в объяснения и советы, как этого избежать.

Пример

Чтобы проиллюстрировать эту предвзятость, представьте, что вы хотите построить модель для прогнозирования цены продукта. Для обучения модели вы используете набор данных, таких как:

  • Характеристики товара (Марка, вес, размер, категория товара)
  • Исторические данные (предыдущая цена, количество продаж)
  • Географические данные (Страна, в которой продается товар, регион)
  • Отзывы клиентов
  • Потребительские характеристики (возраст клиента, предпочтения)
  • И т. д.

На этапе обучения вы собираете все эти данные, разрабатываете функции и начинаете обучать свои модели машинного обучения.

После этого вы начинаете оценивать свою модель. Для этого существует набор тестовых данных (содержащий продукты, которые модель никогда не видела). Набор тестовых данных содержит цену — переменную, которую мы хотим спрогнозировать.

Чтобы оценить модель, вы передаете модели переменные продуктов (размер, вес, страна и т. д.), а затем проверяете с помощью различных показателей (R2, MSE и т. д.) точность ее прогнозов. С этого момента вы очень счастливы, получаете отличные результаты.

Эти великолепные результаты заставляют вас чувствовать, что модель идеальна. Но это может быть совсем не так.

Ниже я углублюсь в объяснения предвзятости.

Пояснения

После обучения модели мы оценили ее. Для этого мы даем модели некоторые данные, которые никогда раньше не встречались (марка, размер продукта, вес и т. д.).