Понимание динамики счастья с помощью машинного обучения (часть 2)

Углубленный анализ факторов счастья

Мы все стремимся к счастью, но его ключевые факторы до сих пор неясны.

Некоторые утверждают, что богатство является самым важным условием, определяющим условия жизни. Тем не менее, некоторые справедливо отметили бы, что богатые люди не всегда счастливы. Напротив, социальные отношения (семья, друзья и т. Д.) Не менее важны для его счастья. Наконец, некоторые утверждают, что политика, проводимая правительствами, действительно определяет счастье человека, поскольку они косвенно определяют наши условия жизни и социальные взаимодействия.

Все это общие и интуитивные представления о счастье, которые мы можем легко понять на собственном опыте. Однако я считаю, что подход, основанный на данных, позволит глубже понять факторы счастья. Применяя самые передовые методы машинного обучения, можно было бы определить наиболее важные факторы и количественно измерить их вклад в счастье.

В этом контексте я проанализировал данные из The World Happiness Report, который представляет собой знаковый обзор состояния глобального счастья. Он содержит, с одной стороны, оценки счастья, основанные на ответах, полученных в ходе Всемирного опроса Gallup (GWP), а с другой стороны, показатели экономического производства, социальной поддержки, продолжительности жизни, свободы, отсутствия коррупции и щедрости.

Эта статья - вторая из серии, в которой я делюсь ключевыми выводами глубокого исследования, которое я провел по этому вопросу. В своей предыдущей статье я анализировал счастье с чисто описательной точки зрения. Таким образом, я обсуждал сложные отношения между счастьем и тремя основными элементами: богатством, социальными отношениями и государственной политикой. Этот исследовательский анализ данных приоткрыл завесу над различиями, которые существуют между регионами мира с течением времени.

Однако это чисто описательное. Он ничего не говорит нам о наиболее важных вопросах: что действительно приносит счастье, в какой степени и почему? Эта статья призвана ответить на эти вопросы, сосредоточив внимание на причинно-следственной связи между счастьем и другими переменными, используя статистические инструменты и машинное обучение.

С этой точки зрения я полагался на два подхода: один «традиционный» подход, обычно используемый в области экономики, и новый подход, основанный на современных инструментах интерпретации машинного обучения.

Без лишних слов, давайте погрузимся в микро- и макроэконометрию счастья!

Структура:

О данных
«Классический» подход
Подход к машинному обучению
Ограничения

1. О данных

Вот краткий обзор переменных набора данных World Happiness Report. Для получения дополнительной информации о данных вы можете обратиться к моей предыдущей статье здесь.

Экономические показатели:

ВВП на душу населения: по паритету покупательной способности (ППС) с поправкой на постоянные международные доллары 2011 года.
Ожидаемая продолжительность здоровой жизни при рождении.

Показатели счастья:

Индикаторы счастья в основном взяты из Всемирного опроса G allup (GWP), который постоянно опрашивает жителей разных стран с использованием случайно выбранных национальных репрезентативных выборок. Эти индикаторы следующие:

Шкала Кантрила или Жизненная лестница: респондентам предлагается оценить свою жизнь по «лестничной» шкале. от 0 до 10, где 0 означает наихудшую из возможных жизней.
Положительный аффект: это средний показатель аффекта предыдущего дня для счастья, смеха и удовольствия.
Негативный эффект: представляет собой среднее значение аффекта предыдущего дня для беспокойства, печали и гнева.

Социальные индикаторы:

Социальные показатели также взяты из опросов GWP. Они включают:

Социальная поддержка: представляет собой среднее значение по стране двоичных ответов (0 или 1) на вопрос «Если у вас были проблемы, есть ли у вас родственники или друзья, на которых вы можете рассчитывать, чтобы помочь вам, когда они вам понадобятся, или нет? »
Щедрость: остаток от регрессии среднего национального показателя GWP ответов на вопрос «Пожертвовали ли вы деньги на благотворительность в в прошлом месяце? » о ВВП на душу населения.
Свобода делать жизненный выбор: представляет собой среднее значение бинарных ответов по стране на вопрос «Довольны ли вы своей свободой выбирать, что делать со своими жизнь? »
Восприятие коррупции: представляет собой среднее значение по стране бинарных ответов на два вопроса: «Распространена ли коррупция в правительстве или нет?» и «Распространена ли коррупция внутри бизнес или нет? »

2. «Классический» подход

2.1. Выбор переменных

Первый вопрос, который мне нужно было задать: какие переменные следует оставить для моделирования счастья? Другими словами, какие переменные действительно важны для объяснения счастья?

Для этой цели я выполнил анализ главных компонентов (PCA). Этот метод извлекает наиболее важную информацию из данных, создавая меньшее количество репрезентативных переменных, которые в совокупности объясняют большую часть вариативность в исходном наборе.

Новые переменные, называемые P основными компонентами, представляют собой направления в пространстве признаков, по которым исходные данные сильно изменчивы. Следовательно, анализируя их состав, можно определить переменные, которые необходимо оставить для исследования.

Для получения дополнительной информации о PCA вы можете прочитать эту статью.

На приведенном ниже графике показан процент отклонения, объясняемый каждым главным компонентом. Два первых объясняют большую часть расхождений.

На двух графиках ниже анализируется состав основных компонентов и их корреляция с исходными переменными.

Графики убедительно показывают, что при моделировании необходимо учитывать 6 ключевых переменных: ВВП на душу населения, социальная поддержка, ожидаемая продолжительность здоровой жизни при рождении, свобода делать жизненный выбор, щедрость и восприятие коррупции. Взятые вместе, эти шесть переменных объясняют большую часть различий в национальных годовых средних лестничных баллах между странами.

Кроме того, можно визуализировать, насколько сильно каждая переменная влияет на два первых основных компонента в двумерном графике. Этот график также показывает корреляцию между переменными через углы между их репрезентативными векторами: чем меньше угол между ними, тем больше положительная корреляция между переменными.

Таким образом, Жизненная лестница, ВВП на душу населения, Ожидаемая продолжительность здоровой жизни при рождении и Социальная поддержка объясняют большую часть первый главный компонент и сильно коррелированы друг с другом.

2.2. Моделирование счастья

Корреляции полезны, чтобы быстро получить представление о данных. Но бывает сложно определить, представляет ли корреляция между двумя или более переменными причинно-следственную связь.

Возьмем известный пример. В 2012 году Мессерли опубликовал статью, в которой указал на высокую корреляцию между уровнем потребления шоколада в стране и когнитивной функцией ее населения. Означает ли это, что употребление большего количества шоколада сделает вас умнее? К сожалению, скорее всего, нет!
Подробнее о причинно-следственной связи вы можете прочитать в этой статье или посмотреть видео ниже.

И все же установление причинно-следственных связей имеет решающее значение при принятии решений. Например, страны с высокой ожидаемой продолжительностью здоровой жизни при рождении, как правило, в среднем более счастливы. Означает ли это, что обеспечение хорошей системы здравоохранения повысит счастье людей? Это зависит от того, насколько здоровые люди еще могут плохо оценивать свою жизнь.

Следовательно, чтобы ответить на подобные вопросы, необходимо использовать статистические инструменты, такие как регрессионный анализ. Экономисты часто используют регрессии. Они позволяют им не только количественно оценить взаимосвязь между одной переменной и другими переменными, но и ее отношения релевантности с помощью статистических тестов.

Методология

При выполнении регрессии важно контролировать, с одной стороны, переменные, которые постоянны в разных странах, но меняются во времени. Например, экономические кризисы, такие как кризис субстандартного кредитования в 2008 году, повлияли на счастье людей во всем мире.

С другой стороны, важно контролировать неизменные во времени ненаблюдаемые индивидуальные характеристики, такие как погода в стране. Эти элементы управления позволяют нам действительно уловить причинно-следственные связи между независимыми переменными и счастьем.

Для этого я использовал хорошо известную технику фиксированных эффектов. Более конкретно, я рассмотрел 3 настройки в зависимости от фиксированных эффектов, включенных в регрессию.

Эффекты года
Год и региональные эффекты
Эффекты года и страны

Этот подход похож на тот, который реализован в The World Happiness Report, за исключением того факта, что я изменил масштаб переменной с помощью нормализации min-max. Это объясняет разницу в результатах.

Полученные результаты

Неудивительно, что все переменные значимы в трех сценариях. Точнее:

Логарифм ВВП на душу населения неизменно является наиболее важным фактором со значением коэффициента от 0,29 до 0,99.
Социальная поддержка занимает первую позицию в первом сценарии и вторую позицию в двух других сценариях со значением коэффициента от 0,21 до 0,29.
Ожидаемая продолжительность здоровой жизни при рождении значительно отличается от 0 только при рассмотрении дисперсии в первом сценарии. В третьем сценарии это признаки даже отрицательные. Это говорит о том, что результаты второго сценария являются наиболее надежными.
Щедрость и Восприятие коррупции относительно менее важны, и их дисперсия высока.

3. Подход к машинному обучению

За последнее десятилетие область машинного обучения добилась значительных успехов. Он применялся во многих областях и оказался очень эффективным, часто превосходя обычные статистические методы.

Однако исследования в первую очередь были сосредоточены на разработке наиболее эффективных алгоритмов с точки зрения точности предсказания или классификации. Лишь в последние годы он перешел в сторону необходимости установления причинного вмешательства. Сегодня это большой источник энтузиазма в сообществе специалистов по данным.

В этом контексте я решил применить современные методы интерпретации, используемые в машинном обучении, чтобы лучше понять факторы счастья.

Методология

Для этого я выполнил 4 шага:

а. Моделирование среднего национального счастья: я протестировал различные алгоритмы машинного обучения на наборе данных и настроил их гиперпараметры.
б. Сравнение относительной важности переменных: Я вычислил относительную важность каждой переменной, используя лучшую модель.
c. Анализ предельного влияния переменных на счастье: Пойдите дальше, проанализировав частичную зависимость объясняющих переменных от счастья.
d. Анализ динамики счастья по регионам. Уточните анализ, внимательно изучив регион.

Объясняющие переменные включают 6 ключевых показателей (ВВП на душу населения, Социальная поддержка, Ожидаемая продолжительность здоровой жизни при рождении, Свобода делать жизненный выбор, Щедрость и Восприятие коррупции) как а также годовой и региональный фиксированный эффект. Эти переменные масштабируются с помощью нормализации max-min, как это было сделано ранее.

Я использовал следующие библиотеки Python: scikit-learn и skater.

Полученные результаты

а. Моделирование среднего национального счастья

Я применил наиболее часто используемые алгоритмы машинного обучения для прогнозирования Life Ladder на основе независимых переменных. Чтобы сравнить их эффективность с точки зрения прогноза, я провел пятикратную перекрестную проверку и сравнил среднюю среднеквадратичную ошибку (RMSE).

Результаты, представленные на графике ниже, показывают, что древовидные методы показывают лучшие результаты. В частности, алгоритм Extra Trees представляет наименьшее значение RMSE.

б. Сравнение относительной важности переменных

Extra-Trees - это хорошо известный алгоритм, который обучает несколько рандомизированных деревьев решений и объединяет их путем усреднения их результатов. График кратко объясняет основной принцип и шаг этого алгоритма.

Дополнительная информация о лесах рандомизированных деревьев представлена в документации sckit-learn, здесь.

Модель дополнительных деревьев в виде древовидной модели обеспечивает интерпретацию своих результатов через важность функций. Они вычисляются как уменьшение примеси каждого узла, где присутствует признак, взвешенное по вероятности достижения этого узла.

На приведенном ниже графике представлена важность характеристик переменных в соответствии с моделью. Логин ВВП на душу населения, Социальная поддержка и Ожидаемая продолжительность здоровой жизни при рождении, по-видимому, являются наиболее определяющими факторами Жизненной лестницы . Это не относится к другим моделям, а именно Random Forest, AdaBoost и Gradient Boosting. Эти алгоритмы ставят ожидаемую продолжительность здоровой жизни при рождении перед логом ВВП на душу населения и социальной поддержкой.

c. Анализ предельного влияния переменных на счастье

Также можно визуализировать предельное влияние каждой из этих трех переменных на прогнозы модели, построив частичные зависимости. Графики ниже показывают небольшую тенденцию к росту. Это означает, что увеличение одной переменной среди Log ВВП на душу населения, Социальная поддержка и Ожидаемая продолжительность здоровой жизни при рождении при сохранении другие переменные в модели константы, приводят к увеличению счастья.

Анализ можно сделать еще на один шаг вперед, визуализировав предельное влияние двух переменных на прогнозы модели. Трехмерный график ниже соответствует тому, что мы могли ожидать: чем выше благосостояние и социальная поддержка, тем счастливее он!

В целом, проведенный на данный момент анализ не только подтверждает выводы, которые мы получили, манипулируя данными, но и позволяет нам их количественно оценить. Деньги и здоровье при социальной поддержке наших близких - столпы счастья. Это факторы, побуждающие людей положительно оценивать свою жизнь.

Тем не менее, эти наблюдения производятся в мировом масштабе. Нам все еще нужно исследовать динамику счастья с точки зрения страны, чтобы делать новые открытия.

d. Анализ уровня счастья в динамике по регионам

Анализ становится еще более интересным, если рассматривать уровень страны по географическому региону. В частности, существует значительный разрыв между развитыми странами, странами с развивающейся экономикой и развивающимися странами. Эти страны не ценят вещи одинаково. Давайте взглянем!

Северная Америка

Результаты для стран Северной Америки наиболее удивительны и радикально отличаются от остальных: логарифм ВВП на душу населения отстает от других факторов. Его важность едва ли составляет половину важности свободы делать жизненный выбор. Ожидаемая продолжительность здоровой жизни при рождении, социальная поддержка и восприятие коррупции имеют относительно одинаковую важность в модели предсказания счастья.

Графики частичной зависимости логарифмического ВВП на душу населения, социальной поддержки и ожидаемой продолжительности здоровой жизни при рождении показывают растущую тенденцию к выравниванию. Это говорит о том, что после определенного момента повышение их ценности не приводит к значительному увеличению счастья.

Для стран Западной Европы логарифм ВВП на душу населения и восприятие коррупции играют аналогичную роль в определении счастья людей. Опять же, свобода делать жизненный выбор занимает третье место, непосредственно перед социальной поддержкой. Напротив, Ожидаемая продолжительность здоровой жизни при рождении отстает от других переменных.

Что касается стран Северной Америки, график частичной зависимости логарифма ВВП на душу населения показывает растущую тенденцию к выравниванию, что предполагает, что после определенного момента увеличение благосостояния не приводит к значительному увеличению счастья.

Для стран с формирующимся рынком и развивающихся стран логарифм ВВП на душу населения неизменно и безусловно является наиболее важным фактором. Следующая переменная зависит от региона, обычно это Социальная поддержка или Ожидаемая продолжительность здоровой жизни при рождении. В случае стран Южной Азии социальная поддержка почти так же важна, как логарифм ВВП на душу населения.

Еще более удивительным является частичная зависимость от логарифма ВВП на душу населения, имеющего форму колокола. Это предполагает, что после определенного уровня богатства увеличение богатства приведет к снижению его счастья!

Социальная поддержка также является второй по важности переменной для стран Центральной и Восточной Европы, Африки к югу от Сахары, Содружества Независимых Государств, но не всегда в той же относительной пропорции, как показано на графиках ниже.

Напротив, страны Латинской Америки и Карибского бассейна, Ближнего Востока и Северной Африки, Восточной, Восточной и Юго-Восточной Азии «ценят» больше ожидаемой продолжительности здоровой жизни при рождении, чем социальной поддержки, как показано на диаграмме ниже .

Как объяснить эти различия между странами?

Кто-то может сказать, что все дело в культуре и ценностях страны, но на самом деле это сложный вопрос, требующий более глубокого изучения. Тем не менее, проведенный анализ уже дает нам представление о том, что люди в стране ценят больше всего и какие меры следует принять для улучшения условий их жизни.

Ограничения

Наконец, я хотел бы указать на 3 основных ограничения представленных выше подходов:

Пропущенные переменные. Хотя они интуитивно релевантны для данной темы, переменных, используемых для объяснения счастья, может быть недостаточно. Их корреляция может фактически отражать какой-то другой «ненаблюдаемый» фактор, который не включен в анализ.
Обратная причинно-следственная связь: также существует риск двунаправленной причинно-следственной связи. Это означает, что счастье может вызывать изменения одной или нескольких независимых переменных. Например, счастливы ли люди, потому что они здоровы, или чувство счастья заставляет их чувствовать себя здоровыми? Люди счастливы, потому что они богаты, или чувство счастья делает их более динамичными и амбициозными в профессиональной жизни?
Неправильное измерение. Многие проанализированные переменные являются субъективными и отражают восприятие людьми большего числа людей, чем реальность. Например, люди из страны с давними политическими традициями демократии могут чувствовать коррупцию сильнее, хотя она остается более слабой и менее распространенной, чем в других странах. Более того, если выбрать ВВП на душу населения и Ожидаемая продолжительность здоровой жизни при рождении, чтобы представить соответственно благосостояние и здоровье людей.

Понимание динамики счастья с помощью машинного обучения (часть 2)