Как проверять конкретные прогнозы и проводить анализ отрицательных случаев

Где-то от 40 до 43% времени, когда я показываю новым ученикам, как использовать методы .predict(), я получаю следующий вопрос:

Где прогнозы?

Я бы хотел, чтобы учащиеся задавали этот вопрос чаще. Это проницательный вопрос, особенно для людей, которые не знакомы с Python, наукой о данных и могут впервые увидеть метод .predict().

Наверняка количество групп, задающих этот вопрос, меньше половины, но, возможно, доля ниже 30 или 20%. Я не веду точный учет.

В первой части этого глубокого погружения эта статья сначала покажет, как построить простую прогностическую модель, во-вторых, как генерировать прогнозы, а в-третьих, как более тщательно проверять прогнозы.

Во второй части этого глубокого погружения эта статья также покажет, почему полезно знать, как проверять отдельные прогнозы, а также почему необходимо проверять отдельные прогнозы. Возможность проверять отдельные прогнозы открывает ряд аналитических возможностей, например, не последним из которых является анализ отрицательных случаев.

Часть первая: методы прогнозирования

Если вы еще не знакомы с созданием прогностической модели, я предлагаю вам прочитать одну или несколько других статей, посвященных этой теме. В главе 11 книги Уверенная наука о данных: знакомство с основными навыками науки о данных (от меня) показано, как создавать прогностические модели.

Например, в статье Поддельные птицы и машинное обучение: использование популярных данных о разнообразии птиц для демонстрации классификации ближайших соседей я поделился кодом, обучающим модель машинного обучения, которая может предсказывать разнообразие видов птиц на основе их веса, длины, местоположения и цвета. . Этот пример с поддельными птицами продемонстрировал прогностическое моделирование с данными о поддельных видах птиц.

Простая прогнозирующая модель

Чтобы помочь нам сосредоточиться на проверке конкретных индивидуальных прогнозов, в этом подразделе мы ускорим создание прогностической модели. Для ускорения в этом подразделе пропущена оптимизация гиперпараметров, а также пропущены несколько шагов подготовки данных.

Кроме того, чтобы ускорить процесс, мы рассматриваем оценку с помощью альтернативных методов…