К моему некоторому удивлению, мои предыдущие анализы Американского исследования использования времени в конечном итоге выявили наши сходства, а не различия. Оказывается, мы все-таки не такие уж разные. Полагаю, что в этом есть надежда.

Однако до сих пор я смотрел в основном на поведение более высокого уровня, сравнивая пять, десять или двадцать различных видов деятельности. Есть еще кое-что, чтобы покопаться. На самом детальном уровне ATUS предоставляет отчеты о 170 000 дней за 13 лет и 400 операций. Некоторые из этих занятий являются повсеместными (сон, еда, телевизор, мытье посуды и работа ), в то время как другие встречаются редко (фехтование и наблюдение за тяжелой атлетикой / силовыми тренировками происходят только один раз, если вы ищете новое хобби, которое сделает вас уникальным) .

Перекошенные, разреженные данные среднего размера. Это будет описывать набор твитов так же хорошо, как и имеющиеся данные. Почему бы не представить, что каждое действие - это слово, а каждый отчетный день - это документ, и не применить к нему некоторые методы интеллектуального анализа текста?

Предрассудки в горнодобывающей промышленности - tf-idf

Tf-idf - это алгоритм для выделения слов, обозначающих текст. Находя слова, которые встречаются в одном документе чаще, чем в других, он дает представление о том, о чем этот документ. Слово the часто встречается в большинстве текстов и поэтому не имеет большого значения, в то время как документ, который несколько раз содержит выборы, вероятно, касается политики или текущих событий.

tf-idf, примененный к нашим данным, гипотетически будет рассматривать сон как «the»: то, что делают все, и поэтому не имеет большого значения при выделении различий. Игра в баскетбол, с другой стороны, не удивит нас списком вещей, которые подростки делают часто, а 70-летние - редко.

Давайте попробуем и выберем десять самых популярных занятий.

И вот, безусловно, есть заметные различия между возрастными группами. Для нашей молодежи - школа и спорт. Когда приходят дети, наши подробности вращаются вокруг них. Внуки появляются чуть позже 50, а потом в доме поселяется натюрморт.

Тем не менее, результаты кажутся довольно стереотипными, почти карикатурными. Однако помните: мы должны быть точными при интерпретации этих результатов. Длина полосы не говорит о том, сколько времени мы тратим на каждую вещь. Вместо этого он показывает уникальность каждой вещи для каждой возрастной группы. Дело не в том, что все 75–84-летние заботятся о других взрослых в семье - предположительно, о своих пожилых супругах, - а вместо этого те, кто заботится о взрослых в семье, скорее всего, пожилые люди.

В этом списке есть что-то пугающе человечное. Это своего рода список стереотипов или даже предрассудков в том смысле, что это список не обязательно того, что многие делают, но вместо этого обычно являются те, кто это делает.

Родители и не родители

Давайте попробуем другое измерение: родители и не родители. Здесь я упрощу, просто сославшись на тех, у кого есть дети, живущие дома, «родители», и тех, у кого нет «не-родителей».

Опять же, мы должны быть точными в том, как мы интерпретируем результаты. Дело не в затраченном времени, а в уникальности. Аксиоматически те, кто заботится о своих детях, являются родителями. Вторая половина результатов немного интереснее. Особые занятия для не-матерей - это йога, аэробика, танцы и уход за домашними животными, в то время как не-отцы возвращаются к своим корням с помощью ружья или удочки или гоняют мячи с помощью палки.

А как насчет стереотипов?

Но об этом чуть позже.

Пять способов провести четверг - LDA

Давайте попробуем второй метод интеллектуального анализа текста: тематическое моделирование. В текстовом анализе тематическое моделирование означает группирование документов в набор сегментов на основе слов, которые принадлежат друг другу, но делают сегменты разными. Затем я могу использовать эти слова, чтобы выяснить, какие есть разные темы. Скажем, например, что я применяю LDA к набору статей в газетах с конца апреля 2017 года. В итоге у меня может получиться одна тема, содержащая такие слова, как «Северная Корея» и «запуск ракеты», и другая, содержащая такие слова, как «Трамп». , «100», «дни». Агентство LDA не только складывает мои вещи в ведра, но и удобно объясняет, почему.

Однако, чтобы применить LDA, я сначала должен определиться с количеством сегментов, которое я хотел бы видеть. Поскольку я стремлюсь к удобочитаемости, я нацелен на горстку. Я просто попробовал значения от трех до семи и остановился на пяти по той простой причине, что это дало интересные и субъективно не слишком пересекающиеся результаты. Кроме того, я решил анализировать только четверг как произвольный день в середине еженедельной работы.

LDA складывает вещи по ведрам и сообщает нам, почему, но мы должны понять эти причины. Я добавил некоторые демографические данные в диаграмму, чтобы помочь разобраться в каждой группе. Эти демографические данные не использовались в анализе или классификации, но были добавлены позже.

Глядя на слова, выбранные LDA как важные, можно выделить пять групп вещей, которые мы делаем ежедневно, сверху вниз:

  1. Бездомная старшая жизнь
  2. Учеба («Дети» означают детей, живущих в семье, предположительно, включая братьев и сестер)
  3. Домохозяйка, домохозяйка и муж: воспитание, воспитание детей
  4. Обычный рабочий день
  5. Домоседская старшая жизнь

Вывод

Я уверен, что для этого анализа есть более мощные инструменты. По крайней мере, я выбрасываю некоторую информацию, рассматривая данные как простой пакет действий. Тем не менее, результаты оказались лучше, чем я ожидал, а благодаря пакету tidytext сделать это было глупо просто.

Попутно я понял, что между текстом и этим есть несколько важных отличий. Наиболее важным из них, возможно, является тот факт, что редкие события в тексте представляют собой высокоинформативные события, но часто являются выбросами в других данных. Например, tf-idf оказался настоящим сексистским придурком.

Опять же, может быть, здесь есть ценный урок для всех нас? Возможно, именно это и происходит, когда мы слишком много внимания уделяем тому, что отличает нас от других, и слишком мало - тому, что делает нас такими же. Потому что, оказывается, мы все-таки не такие уж разные.

Полный код на гитхабе.