Как проверять конкретные прогнозы и проводить анализ отрицательных случаев
Где-то от 40 до 43% времени, когда я показываю новым ученикам, как использовать методы .predict()
, я получаю следующий вопрос:
Где прогнозы?
Я бы хотел, чтобы учащиеся задавали этот вопрос чаще. Это проницательный вопрос, особенно для людей, которые не знакомы с Python, наукой о данных и могут впервые увидеть метод .predict()
.
Наверняка количество групп, задающих этот вопрос, меньше половины, но, возможно, доля ниже 30 или 20%. Я не веду точный учет.
В первой части этого глубокого погружения эта статья сначала покажет, как построить простую прогностическую модель, во-вторых, как генерировать прогнозы, а в-третьих, как более тщательно проверять прогнозы.
Во второй части этого глубокого погружения эта статья также покажет, почему полезно знать, как проверять отдельные прогнозы, а также почему необходимо проверять отдельные прогнозы. Возможность проверять отдельные прогнозы открывает ряд аналитических возможностей, например, не последним из которых является анализ отрицательных случаев.
Часть первая: методы прогнозирования
Если вы еще не знакомы с созданием прогностической модели, я предлагаю вам прочитать одну или несколько других статей, посвященных этой теме. В главе 11 книги Уверенная наука о данных: знакомство с основными навыками науки о данных (от меня) показано, как создавать прогностические модели.
Например, в статье Поддельные птицы и машинное обучение: использование популярных данных о разнообразии птиц для демонстрации классификации ближайших соседей я поделился кодом, обучающим модель машинного обучения, которая может предсказывать разнообразие видов птиц на основе их веса, длины, местоположения и цвета. . Этот пример с поддельными птицами продемонстрировал прогностическое моделирование с данными о поддельных видах птиц.
Простая прогнозирующая модель
Чтобы помочь нам сосредоточиться на проверке конкретных индивидуальных прогнозов, в этом подразделе мы ускорим создание прогностической модели. Для ускорения в этом подразделе пропущена оптимизация гиперпараметров, а также пропущены несколько шагов подготовки данных.
Кроме того, чтобы ускорить процесс, мы рассматриваем оценку с помощью альтернативных методов…