Использование классификационных моделей для ответа на сложные жизненные вопросы

Ранее в этом году я отправил запись для прослушивания, чтобы стать участником канала Netflix Nailed It!

Я не бездельничал - я был большим поклонником сериала и искренне хотел попасть в 3-й сезон. На это у меня ушло три дня (нет, серьезно, 3 дня), но в конце концов я закончил чизкейк в полоску с зеброй и зеброй. подчинение:

Я был очень рад получить ответ от команды Nailed It! и возможность взять интервью. Но по мере того как с каждым последующим интервью моя мечта приближалась к осуществлению, я запаниковал!

Смысл шоу в том, чтобы быть глупым и не относиться к себе слишком серьезно. Я всегда это знал. Но я никак не мог прийти в голову ...

Что, если я ДЕЙСТВИТЕЛЬНО ставлю себя в неловкое положение?

В то время у меня не было возможности предсказать, как ухудшится гипотетический внешний вид. Итак, я предположил худшее и сообщил кастинговой команде, что меня больше не интересуют.

Теперь я на несколько месяцев старше и мудрее. Что еще более важно, я научился строить модели прогнозной классификации. Теперь у меня есть все необходимое, чтобы ответить на вопрос: действительно ли я смутился бы?

К счастью, у Nailed It было 72 конкурсанта для эпизодов выпечки в США, что дало мне довольно большой набор данных для создания прогнозной модели. В интересах доброты я не буду указывать, кто из этих конкурсантов, по моему мнению, смутил себя, но скажу, что просмотрел отснятый материал и считаю, что 19 конкурсантов смутили себя немного, в то время как 11 участников ОЧЕНЬ смутились. Скажу, что мой любимый участник сериала - Сал - попал в разряд смущенных. Но в свою защиту, я думаю, он согласился бы, и он так мало возражал, что вернулся в шоу для второй серии.

Затем мне нужно было выбрать предикторы для моей модели. Я изо всех сил старался избегать слишком субъективных черт. Я также хотел выбрать черты, которые я мог бы легко описать для себя. Наконец, было МНОГО эпизодов для просмотра, поэтому я выбрал черты характера, которые мог определить, просматривая только несколько минут каждого эпизода. Я закончил исследовать:

пол, возраст, опыт выпечки, опыт украшения, родной город, глупость, знакомство с шоу, неуклюжесть, уместность одежды¹, мотивация присутствия на шоу, неуклюжесть, готовность к риску… ..

Чтобы избежать проблем, которые я видел в начальных моделях несбалансированных классов², моя модель объединяет людей, которые немного и сильно себя смущали, и только предсказывает, смущаю ли я себя, а не насколько.

Я заранее создал модель логистической регрессии³, чтобы определить, какие категории могут приводить к затруднению. После того, как я удалил категории, которые не были полезны, я создал и модель классификации логистической регрессии, и модель классификации K ближайших соседей, чтобы узнать, что….

Я НЕ БЫЛА НАКАЗАТЬ СЕБЯ НА ГВОЗДЬ !!

Так что, возможно, я пропустил свой шанс попасть в сериал из-за неуместного страха, что мои действия, записанные на пленку, поставят меня в неловкое положение. Но с другой стороны, я могу решить для себя, какой будет тема моей выпечки:

И последнее замечание: когда я смотрел эпизод за эпизодом (за эпизодом, после эпизода ...) этого шоу, я заметил, что хорошие результаты в первом раунде, похоже, не имеют ничего общего с хорошими результатами в финальном раунде. . Глядя на данные, кажется, что если ваша цель - выиграть последний раунд, вы даете себе лучший шанс, заняв последнее место в первом раунде.

[1] Эта категория была добавлена ​​в первую очередь потому, что меня больше всего раздражает. Я терпеть не могу, когда люди распускают длинные волосы во время выпечки (ой) или когда люди носят туфли на шпильках по случаю, когда они знают, что будут стоять на ногах и бегать часами (ой). Оказалось, что это не является предиктором того, смущал ли кто-то себя.

[2] Если большинство представлено в слишком большом проценте набора данных или меньшинство представлено в слишком маленьком проценте набора данных, у вас несбалансированные классы. Это создает трудность, при которой модель, которая кажется наиболее эффективной, либо назначает все выходы как несбалансированное большинство, либо не назначает какие-либо выходы несбалансированному меньшинству.

[3] Это модель, которая прогнозирует вероятность наступления события (например, унижения) в зависимости от всех вводимых параметров. Эта модель оценивает каждый параметр по-разному в зависимости от того, насколько предсказуемым является этот параметр. Просмотр этих весов может быть полезным способом поиска параметров, которые можно удалить из вашей модели.

[4] Как ни странно, неуклюжесть не приводила к смущению.

[5] Это модель, которая смотрит на входные предикторы и находит обучающие данные, которые ближе всего подходят к вашим входным данным. Затем модель смотрит, какой результат чаще всего встречается среди этих соседей, и назначает этот результат вашим результатом.