От тостов с авокадо до интерпретации домовладения миллениалов через классификацию

Источник

Три года назад я наткнулся на заголовок, который остановил меня.

Он гласил: Миллионер для миллениалов: прекратите покупать тосты с авокадо, если хотите купить дом.

Сначала мне было стыдно, и я был не один. Мы с друзьями по очереди в групповом чате признались, что много раз тратили деньги на тосты с авокадо. Да, у нас дома были отличные авокадо, но неужели поздний завтрак действительно мешал владению домом?

Мы сделали шаг назад. Мы посчитали. Мы исследовали, насколько обстоятельства тысячелетия отличались от обстоятельств наших предшественников (например, экономика, стоимость образования, рост цен на недвижимость), и продолжили нашу жизнь.

Вид. В глубине души я всегда думал: однажды, когда у меня появятся время и инструменты, я разберусь с этим ужасным заявлением с помощью холодных и достоверных данных.

Сумасшествие 2020 года изменило мое представление о шокирующих и беспрецедентных новостях, но я вспомнил этот заголовок во время мозгового штурма своего второго сольного проекта на Metis Data Science Bootcamp.

Я поступил в Metis после нескольких лет работы в аналитике. Что всегда удовлетворяло меня - моя карьерная миссия в целом - это использование данных для раскрытия потенциала людей, продуктов и процессов. Любой день, когда я могу использовать данные, чтобы дать кому-то / чему-то возможность быть лучшим, на что они способны, - это хороший день в моей книге.

Когда в марте разразилась пандемия, и мир резко остановился, я полностью осознал (как и многие другие), насколько коротка жизнь. Я знал, что нельзя тратить время на то, чтобы быть лучшим, чем я мог быть - чтобы глубже овладеть наукой о данных и вооружиться техническими навыками для выполнения моей миссии.

Когда контролируемый модуль машинного обучения появился в учебном лагере, я знал, что это будет идеальное время для меня, чтобы построить модель бинарной классификации, чтобы отделить домовладельцев-миллениалов от их сверстников-арендаторов и в процессе понять, что нужно для этого. обряд посвящения для моего поколения.

Данные

Я использовал США. Национальное лонгитюдное исследование Бюро статистики труда (’97) в качестве источника данных. Опрос проводился в течение 20 лет с участием группы первых миллениалов США (1980–1984 гг. Рождения), записывая их ответы по 80 000 переменных. Большая часть моего процесса сбора и очистки данных была сосредоточена на понимании методов опроса и определений переменных. В конце концов, я извлек 26 переменных для своего исследования, сделав снимок испытуемых в возрасте 30 лет - ключевой вехи во взрослом возрасте.

Базовая модель

Выбор модели - ключевой шаг в каждом проекте по науке о данных и, возможно, требует самых концептуальных фундаментальных знаний.

Мы рассмотрели ряд моделей машинного обучения с учителем в классе, таких как логистическая регрессия, K-ближайших соседей, наивный байесовский метод, случайный лес и градиентное усиление. Первой моделью, которую я исключил сразу же, была наивная байесовская модель: в основе модели лежит предположение о том, что все функции независимы друг от друга, что было бы безответственно предполагать, учитывая, что я работал с демографическими данными (например, такими факторами, как пол, раса, и возраст редко не зависит от заработной платы).

У меня остались четыре модели.

Я сторонник школы итеративных процессов в дизайне продукта, поэтому моя цель для каждого проекта - как можно быстрее создать минимально жизнеспособный продукт (MVP), а затем вернуться к нему и оттуда усовершенствовать последующие итерации.

В этом случае мой MVP был бы базовой моделью, что сделало Random Forest идеальным выбором. Древовидные модели очень функциональны прямо из коробки - нет необходимости заполнять отсутствующие значения или даже декодировать переменные продольного исследования во что-то, что может понять непрофессионал, поэтому я смог построить свой беспорядочный необработанный набор данных. Random Forest, в отличие от его более мощного древовидного брата Gradient Boost, также имеет встроенный параметр для балансировки весов классов в scikit-learn. Я в полной мере воспользовался этим параметром, так как класс миллениалов, владевших постоянными домами (домами и квартирами), по моим данным, превосходил по численности 2: 1 их коллег-арендаторов.

Моя модель случайного леса дала отличные результаты: запоминаемость 0,73 и точность 0,55, что означает, что моя модель смогла охватить 73% всех домовладельцев-миллениалов в моих данных, а из прогнозируемых домовладельцев 55% были фактическими домовладельцами. (Если вы новичок в классификации, вы, вероятно, думаете: А как насчет точности? Вот отличная статья Уилла Кёрсена, в которой объясняется, почему отзывчивость и точность являются более эффективными показателями.) Поражены прогнозирующими способностями Random Forest. власти, я мог бы остановиться на этом, оставив неделю до моего крайнего срока, но моей целью была интерпретируемость.

Окончательная модель

В науке о данных легко сосредоточиться исключительно на выходных показателях модели как на индикаторе успеха, поэтому важно уменьшить масштаб и вернуться к основному вопросу, на который вы пытаетесь ответить. Моя задача заключалась в том, чтобы интерпретировать факторы, из которых состоят домовладельцы-миллениалы, поэтому, если я не мог точно определить влияние каждой функции на результаты моей классификации, независимо от того, насколько мощными для прогнозирования были мои модель была, в моем проекте не хватало бы сути. Случайный лес, несмотря на его предсказательную силу с самого начала, был моделью, которая не поддерживала интерпретацию. По сути, это был черный ящик.

Мне нужно было лучшее из обоих миров - предсказательная сила и интерпретируемость, поэтому я решил создать модель логистической регрессии (наиболее интерпретируемую из всех моделей классификации), которая могла бы быть столь же мощной, как случайный лес.

Логистическая регрессия проста и элегантна, но гораздо более чувствительна к шуму в данных по сравнению с моделями на основе деревьев. То, что вы получаете, действительно настолько хорошо, насколько хорошо вы вводите - что означало гораздо более высокую планку для входных данных.

Я потратил дни на тщательную очистку своих данных: заполнение нулевых значений и разработку функций. Я также потратил время на настройку параметров - применение регуляризации LASSO (повышенная сила C = 0,4) и балансировки весов классов (что сработало лучше, чем передискретизация с использованием RandomSampler ()). Применительно к набору удерживаемых тестов моя последняя модель логистической регрессии сгенерировала отзыв 0,73 и точность 0,53, что полностью соответствует оценкам, первоначально полученным моей базовой моделью случайного леса.

Мне удалось сопоставить предсказательную силу моей базовой линии случайного леса с интерпретируемостью моей окончательной модели логистической регрессии. Я достиг лучшего из обоих миров!

Более того, глядя на компромисс между отзывами и точностью, я не видел необходимости корректировать порог точности-отзыва, потому что я хотел сделать акцент на отзывчивости в своей модели. Помимо интерпретации, я знал, что бизнес-использование моей модели, скорее всего, будет применимо к информационным / маркетинговым целям: любой, кто хочет охватить вечно неуловимое домохозяйство миллениала. Широкая сеть - это ключ к охвату / маркетингу, поэтому альтернативные издержки моей модели без учета миллениала, который является домовладельцем (ложноотрицательный), больше, чем охват миллениалом, который в настоящее время не является домовладельцем (ложноположительный результат).

Интерпретация функций

Хотя текущие финансовые активы могут быть одним фактором владения жильем, это вряд ли ключевой фактор. Более важными были переезды в прошлом и брак с получением степени бакалавра и расой (субъекты, которые идентифицируют себя как чернокожие американцы) завершали остальную пятерку лучших.

Для меня самым большим сюрпризом в моей модели была ее самая впечатляющая черта: количество переселений в возрасте от 12 до 30 лет. Были ли эти переселения свидетельством унаследованного кочевого образа жизни, который снизил вероятность приобретения людьми постоянного жилья? Или они были симптомами системной бедности, ведущей к недобровольному перемещению (как система патронатного воспитания)? Это то, что я хочу исследовать больше всего на следующих шагах.

Для заключительной части моего проекта я создал панель управления Tableau, чтобы визуализировать функцию перемещения, а также углубленное представление каждого объекта в моих данных, что позволяет дальнейшее изучение.

Я пришел к этому проекту с одним простым вопросом: «Что делает домовладельца-миллениал», а затем добавил еще больше вопросов и мотивов для следующих шагов. Хотя лонгитюдное исследование, из которого я взял данные, проводило его опрос в манере, репрезентативной для Соединенных Штатов в 1997 году, 23 года спустя, мы знаем, что необходимо больше нюансов в репрезентации (т.е. расширение четырех категорий исследования, чтобы расы были более значимыми). включительно), особенно, как мы видели выше, когда расовая принадлежность является одним из главных факторов в домовладении. Мне также было бы интересно узнать, где находятся испытуемые в возрасте 35 лет, когда будут опубликованы новые данные исследования.

Возможности никогда не заканчиваются, когда вы начинаете задавать вопросы, и одна мысль порождает еще дюжину, но это величайшая красота науки о данных. Всегда есть следующая итерация и следующий вопрос, на который нужно ответить!

(Говоря о вопросах, для всех, кто интересуется мелочами, ознакомьтесь с моим репозиторием на GitHub. Если вы хотите поболтать больше об этом проекте или любых других данных, связанных, не стесняйтесь обращаться в LinkedIn.)