Данные для изменения

Мы использовали машинное обучение для изучения языка психического здоровья подростков

Специалисты по обработке данных Crisis Text Line использовали модель машинного обучения, чтобы предсказать возраст текстовых переводчиков на основе уникальных слов, которые используют текстовые подростки. Узнайте, как мы использовали НЛП для увеличения данных в наборе данных из 118 миллионов текстовых сообщений.

Предупреждение о содержании // Этот пост может содержать расстраивающий или запускающий контент о проблемах психического здоровья, включая беспокойство и стресс.

Эта статья написана Тиффани Мешкат и отредактирована Лили Торок с соавтором Кей Сайто. Вклады Дуа Шамси, Шеннон Грин и Жаклин Вайзер. Это исследование было проведено в Crisis Text Line в партнерстве с Hopelab и Well Being Trust.

С одного взгляда

  • Намереваясь узнать об уникальных проблемах психического здоровья, с которыми сталкиваются подростки во время Covid-19, Crisis Text Line столкнулась с препятствием: только 21% наших текстовых сообщений напрямую раскрывают свой возраст в опросе после разговора. Чтобы обойти этот барьер, мы применили машинное обучение, чтобы попытаться точно отделить подростков от текстовых сообщений взрослых, чтобы увеличить объем подростковых разговоров, которые мы можем анализировать.
  • Мы использовали обработку естественного языка, чтобы предсказать возраст текстовых сообщений, чтобы узнать о проблемах психического здоровья наших молодых текстовых сообщений во время Covid-19.
  • Голос подростков, работающих с текстовыми сообщениями, уникален и заметно отличается от голоса взрослых. Наша модель машинного обучения могла определить, что они были моложе, по словам, которые они использовали в разговоре с нами, с точностью 85%.
  • В то время как большинство наших подростков текстовых сообщений были белыми и женщинами (согласно опросу), модель показала такие же хорошие результаты среди небелых текстовщиков, не являющихся женщинами, с точностью 83%.
  • Текстовые сообщения-подростки чаще используют аббревиатуры, слова согласия и чаще упоминают свой возраст.
  • Взрослые текстовые сообщения чаще обсуждают финансовые проблемы, алкоголь, бездомность и диагнозы психического здоровья.

2020 год был исключительно сложным для людей во всем мире из-за пандемии Covid-19. Поскольку 50% текстовых сообщений Crisis Text Line, которые заполняют наш опрос после разговора, составляют 17 лет или меньше, у нас есть уникальная возможность обсудить, что это время означало, в частности, для психического здоровья молодых людей, и поэтому мы начали серию исследований отчаяния и устойчивости подростков в 2020 году. В нашем первом посте мы обнаружили, что подростки, отправившие текстовые сообщения Crisis Text Line в 2020 году, столкнулись с большим количеством горя, расстройств пищевого поведения, беспокойства и стресса, чем в 2019 году. Подростки также на 45% чаще связывались с нами поздно ночью в 2020 году, чем раньше. (На протяжении всей статьи мы используем термины молодые люди и подростки как синонимы для описания текстовых сообщений в возрасте 17 лет и младше.)

До сих пор мы были ограничены в нашем анализе, потому что нам приходилось полагаться на подмножество разговоров, в которых наши текстовые сообщения делились с нами своим возрастом в дополнительном опросе после разговора.

Тем не менее, наши консультанты по кризисным ситуациям объяснили нам, что они обычно могут определить, когда они переписываются с подростком, потому что способ, которым подростки пишут, и язык, который они используют, отличается от текстовых сообщений старшего возраста.

Например, из сообщения ниже видно, что молодой человек пишет текстовое сообщение:

«Я очень нервничаю, потому что ничего не понимаю в удаленной школе. Я не могу следить за всей работой, которую мне поручают, и мои оценки падают. Очень сложно встать и одеться, некуда идти. Моя мама пыталась заставить меня встать, а я просто не хочу. Я не могу дождаться, когда закончится вся эта история с covid-19 ». ** Мы перефразировали эту цитату, чтобы защитить личность Texter **

Консультант по кризисным ситуациям мог сразу сказать, что это молодой текстовик, и компьютер тоже, если не так точно. Это предоставило прекрасную возможность использовать машинное обучение и расширение данных для приблизительного определения возраста наших текстовых специалистов, чтобы узнать о психическом здоровье подростков из гораздо большего набора данных - почти всех разговоров на платформе Crisis Text Line вместо 21% их. Мы рассматривали это как захватывающий вызов для наших специалистов по обработке данных и возможность узнать об уникальных проблемах психического здоровья молодых людей в 2020 году.

Построение модели

Шаг 1. Мы начали с очистки и обработки наших данных.

Мы получили доступ к анонимным и очищенным данным текстовых сообщений от текстовых сообщений, находящихся в кризисной ситуации с 2018 по 2020 годы. Мы использовали термин частота-обратная частота документа (TF-IDF), чтобы преобразовать содержимое текстовых сообщений в числа, которые наша модель могла бы обработать. Мы удалили двойные пробелы; мы также заменили числа словом числовое_значение для поиска крупномасштабных тенденций в использовании чисел, а не отдельных чисел. Мы решили не удалять стоп-слова (слова с небольшим интерпретируемым содержанием, например, the), поскольку их удаление снизило прогнозирующую способность нашей модели (более подробную информацию об этом выборе см. В разделе о методологии в конце). Однако мы решили включить знаки препинания, чтобы учесть любые различия между знаками препинания для молодежи и взрослых. Мы предсказали, что молодые люди будут использовать знаки препинания по-другому, и полагали, что это может быть дополнительным уникальным идентификатором для подростков.

Шаг 2. Мы обучились на данных разговоров за 2018 и 2019 годы, а затем протестировали на разговорах за 2020 год.

В период с 2018 по 2020 год наши консультанты по кризисным ситуациям отправили текстовые сообщения 3,8 миллионам человек, оказавшимся в кризисной ситуации, но большинство текстовых операторов не сообщают свой возраст и другую демографическую информацию. Чтобы обучить модель, нам пришлось ограничить нашу выборку разговорами, в которых у нас действительно был возраст, указанный в нашем добровольном опросе после разговоров, который вышеупомянутый 21% текстовых сообщений заполняет после разговора с нами. Это означало, что наши данные для обучения и тестирования были ограничены только этим ~ 21% данных. Итак, наши размеры выборки выглядели так:

  • Размер выборки обучающей выборки: 450000 кризисных разговоров с 2018 по 2019 год,
  • Размер выборки для тестирования: 240000 кризисных разговоров с 2020 года.

Разделение: 45% помеченных разговоров были подростками и 55% - взрослыми по данным за 2018–2020 годы. Два класса были почти сбалансированы; в нашей модели участвовало примерно одинаковое количество молодых людей и взрослых.

Шаг 3. Мы использовали логистическую регрессию, потому что она хорошо работает с текстовыми данными с большим набором функций и легко интерпретируется.

Мы использовали модель логистической регрессии для создания бинарного классификатора, который определяет, является ли текстовик подростком или взрослым, на основе ярлыка, который мы смогли присвоить с помощью нашего демографического исследования. Сначала мы протестировали модель, используя только текстовые сообщения в качестве входных данных.

Затем мы протестировали добавление нескольких других входных данных, включая номер активного спасения (количество вызовов служб экстренной помощи для поддержки текстового оператора), количество разговоров (общее количество обращений к нам), час начала разговора. , а некоторые теги проблем больше связаны с подростками. В конце концов, модель была наиболее предсказуемой с использованием как количества разговоров, так и активного аварийного номера.

Шаг 4. Мы оценили эффективность по нескольким демографическим группам.

Наша модель имеет точность 85% и площадь под кривой (AUC) 84%. Оценка AUC - это область под синей кривой рабочих характеристик приемника (ROC), которая отображает соотношение истинно положительных результатов и ложноположительных результатов. Короче говоря, показатель AUC является хорошим индикатором того, насколько хорошо модель предсказывает, является ли текстовик подростком или взрослым.

Большинство текстовых сообщений Crisis Text Line, которые заполнили опрос после разговора и указали пол, являются текстовыми сообщениями женского пола (~ 70%). 50% тех, кто указал расу, составляют белые. Учитывая это большинство населения, мы также протестировали нашу модель на самоидентифицированной не-женской, небелой популяции текстеров. В конце статьи мы включили две таблицы с демографической разбивкой наших текстовщиков по полу и расе. Текстовые переводчики также могут указать в ответе пол, а также выбрать вариант «Предпочитаю не отвечать».

Модель показала очень хорошие результаты на популяции не-женщин и не белых текстеров, точность 83% и показатель AUC 83%. Этот тест показывает, что наша модель сравнительно хорошо показала себя для этой популяции, даже несмотря на то, что они составляют меньшинство наших текстовщиков. Это не всегда так в академических исследованиях, вы можете прочитать об этом в статьях из Калифорнийского университета в Беркли, Университета Вирджинии и Университета Джорджа Мейсона. Не-женщины и не белое население текстовых сообщений в 2020 году составляло ~ 19000 текстовых сообщений по сравнению с ~ 237000 текстовых сообщений в нашей полной модели 2020 года (которая включает тех, кто идентифицирует себя как женщин и белых текстовых сообщений).

Мы также проверили, насколько хорошо наша модель предсказывает подростковые разговоры для тех текстовых сообщений, которые идентифицируют себя как «латиноамериканцы, латиноамериканцы или испанцы» или «черные или афроамериканцы». Наша модель имела точность 84% и показатель AUC 83% для испаноязычных текстовщиков. Он также показал хорошие результаты для чернокожих и афроамериканцев, работающих с текстовыми сообщениями, с точностью 83% и показателем AUC 83%.

Как подростки пишут по-разному в соответствии с нашей моделью

Наша модель логистической регрессии работает, выявляя самые сильные индикаторы подростков или взрослых текстовщиков. Мы можем получить доступ к этим атрибутам, чтобы понять языковые различия между этими группами. На рисунках ниже перечислены основные черты (от 1 до 3 слов), которые больше всего отличали подростков от взрослых.

ТОП-50 АТРИБУТОВ ТЕКСТЕРОВ-ПОДРОСТКОВ

ТОП-50 АТРИБУТОВ ВЗРОСЛЫХ ТЕКСТЕРОВ

Наиболее отличительные слова, используемые для определения того, является ли текстовик подростком, включают описание школьных тем, их возраста или их родителей. Для взрослых эти слова в первую очередь включают слова, относящиеся к их партнеру и детям, а также к работе и учебе. Некоторые особенности уникального языка, на котором говорят подростки и взрослые, нам особенно понравились.

Тинейджеры:

  1. Удивительно, но некоторые главные особенности для подростков включают выражения, сигнализирующие о согласии, такие как «ты тоже», «хорошо» и «м-м-м». По данным нашей клинической группы, подростки чаще, чем взрослые, реагируют на консультантов по кризисным ситуациям. , и, кажется, чувствуют себя обязанными ответить. Это часто приводит к тому, что консультантам по кризисным ситуациям посылается больше благодарственных сообщений, чем взрослым, таких как «ок», «ммм», «ох» и т. Д.
  2. Одна из главных особенностей для подростков - «Я всего лишь [numeric_value]». Сюда входит термин «числовое_значение», которым мы заменяли все числа. Наша клиническая бригада интерпретирует это как рассказ подростка-тексера о своем возрасте в связи с чем-то трудным. Для них это обычный способ понять свою ситуацию, в которой они думают, что их жизнь не должна быть такой сложной, учитывая, что они всего лишь ребенок.
  3. Подростки используют значительно больше сокращений, инициализмов и сокращенных слов, чем взрослые. На рис. 4 перечислены основные сокращения, используемые подростками.

Взрослые:

  1. Среди 150 основных характеристик, связанных со взрослыми, мы находим, что беспокойство, связанное с деньгами, гораздо более заметно, чем в разговорах подростков. Основные характеристики, связанные с деньгами, включают «работу», «страхование», «работу», «доступность» , «Счета», «финансовые», «деньги» и «карьера».
  2. Другие главные особенности, связанные со взрослыми, включают употребление алкоголя и бездомность. Слова, связанные с алкоголем, не появляются в первых 150 характеристиках для подростков, что интересно, поскольку опросы на уровне населения показывают, что некоторые подростки действительно употребляют алкоголь и когда они есть алкоголь, это, как правило, запой. Это открытие, возможно, указывает на то, что взрослые больше борются с алкоголем или называют его механизмом выживания.
  3. Взрослые чаще используют слова, связанные с диагнозом психического здоровья, например «инвалидность», «болезнь», «депрессия» и «биполярное расстройство». Кроме того, в разговорах со взрослыми используется больше слов, связанных с профессиональными услугами, такими как «консультирование», «лекарства», «медицина» и «психиатр».
  4. Слова, связанные с автомобилем, появляются только в первых 150 функциях для взрослых, но не в списке подростков (т. е. «моя машина», «машина», «за рулем», «за рулем»).

Среди этих 150 основных функций мы видим, что подростки используют ряд аббревиатур, инициализмов и сокращенных слов, которые взрослые обычно не используют. Мы отмечаем, что использование сокращений не умаляет серьезности разговора, а просто указывает на языковые различия в выборе, который подростки делают при отправке текстовых сообщений. Они показаны на рисунке ниже:

TOP 10 СОКРАЩЕНИЙ, УКАЗЫВАЮЩИХ ТЕКСТЕР-ПОДРОСТК

Большинство слов, перечисленных в Таблице 4, представляют собой аббревиатуры от общих слов, таких как «Instagram» или «действительно», за заметным исключением CPS, что означает «Службы защиты детей», потенциальный фактор стресса в жизни подростков, работающих с текстовыми сообщениями. Мы провели качественный анализ сообщений и обнаружили, что разговоры о CPS варьировались от подростков, рассказывающих о своих родителях, до родителей-подростков, обеспокоенных своими детьми.

Мы будем использовать этот расширенный набор данных для изучения отчаяния и устойчивости молодых текстовых сообщений в 2020 году.

Это вторая статья в серии, посвященной анализу психического здоровья подростков в 2020 году. Наша третья и последняя статья будет анализом того, что заставило подростков текстовых сообщений чувствовать себя лучше. Мы будем использовать модель машинного обучения, описанную в этой статье, чтобы расширить диапазон подростковых разговоров, которые мы можем анализировать. Мы будем искать тенденции в этом большом наборе данных, чтобы выяснить, какие стратегии выживания использовали подростки, чтобы помочь им выйти из сложной ситуации. Мы продолжим делиться тем, что узнаем в этом блоге, в ближайшие недели.

Примечание об ограничениях данных

Данные никогда не бывают идеальными; он предоставляет историю, основанную на неполном наборе информации. Данные Crisis Text Line ничем не отличаются. Мы думаем, что Crisis Text Line может внести важный вклад в общенациональный разговор, но важно отметить, что наши данные не репрезентативны для всех людей в США и не отражают то, что переживают все люди в кризисной ситуации. Данные о проблемах сообщаются добровольными консультантами по кризисным ситуациям примерно для 95% разговоров на основе их интерпретации вопросов разговора. Демографические данные сообщают сами текстовые сообщения после разговора в веб-опросе. Мы всегда использовали данные, чтобы помочь нам улучшить наши услуги текстовым операторам в кризисных ситуациях, и регулярно консультируем третьи стороны и проверяем, основаны ли наши процессы на передовой практике. Мы привлекаем дополнительных третьих лиц для дальнейшего анализа наших методов обработки данных, чтобы убедиться, что они являются надлежащими, конфиденциальными, безопасными и максимально строгими.

Демографическая разбивка в сообщениях Crisis Text Line:

ПОДСЧЕТ ГЕНДЕРНОГО НАСЕЛЕНИЯ ТЕКСТЕРОВ, ПОДЧИНЯЕМЫЙ САМООПРЕДЕЛЕНИЕМ

В следующей таблице перечислены наиболее частые ответы текстовых сообщений о расе. Как и в предыдущей таблице, мы перечисляем только самые распространенные расы, для которых более 0,4% текстеров.

НАСЕЛЕНИЕ ТЕКСТЕРОВ, ПОКАЗЫВАЕМЫЕ САМОООЧЕТНЫМИ ГОНКАМИ

Вот параметры, которые мы использовали в модели:

  • Мы позволили модели классифицировать по 1, 2 или 3 словам за раз (1–3 нграмма).
  • Мы установили максимальную частоту документа 0,7, чтобы игнорировать слова, которые встречаются более чем в 70% текстов. Мы увеличили этот параметр с 0,5 до 0,7, потому что разговоры с подростками составляют почти половину наших данных; слово, которое встречается примерно в 50% разговоров, технически может быть словом, которое помогает определить голос подростка.
  • Мы устанавливаем минимальную частоту документов 50, игнорируя слова, которые встречаются менее чем в 50 разговорах, чтобы отбросить очень общие или необычные слова.
  • Мы увеличили максимальное количество итераций до 2000, чтобы у решателей было больше времени для схождения.

Почему мы не удалили стоп-слова. Мы решили не удалять стоп-слова перед вводом сообщений в модель. Вместо этого мы выбрали определенные значения для min_df (минимальная частота документа) и max_df (максимальная частота документа), чтобы сократить корпус слов и удалить редкие слова. Это следует из результатов исследования, проведенного Открытым университетом, которое обнаружило, что удаление предварительно составленного списка запрещенных слов негативно повлияло на эффективность их классификатора анализа настроений на выборочных данных Twitter. Они обнаружили, что лучшим подходом был динамический метод удаления наиболее редко встречающихся слов в корпусе.