Как девочка-примадонна, я всегда хотела всего мира.

Это был 2017 год. Я был в постоянной панике, что рано или поздно умру от внезапной смертельной болезни. Это загнало меня еще глубже в спираль, из которой я не могу выбраться. Я чувствовал себя застрявшим в этой ситуации, как будто ничего хорошего больше не произойдет, и я просто оттягиваю неизбежное. Я чувствовал себя в ловушке. Я чувствовал себя несчастным. Я хотел просто исчезнуть, чтобы не чувствовать боли.

СПОЙЛЕР: я все еще здесь, но ни депрессия, ни тревога никуда не делись. На пике (или, лучше сказать, на самом низком уровне) коллега спросил меня: «От ма-де-депресс ка е мас масалезе ка бие каринг алива?» [FIL: «Bakit ka na-de-depress e mas maayos ang buhay mo kaysa sa iba?» RU: «Почему ты в депрессии, когда живешь лучше других?»] Меня это ошарашило и одновременно взбесило. Для всех этот тип вопросов обесценивает чувства человека. Вы причиняете больше вреда, чем вообще ничего не говорите. В любом случае, перенесемся в 2021 год, и этот вопрос застрял у меня.

Означает ли жизнь в достатке, что вы не склонны к депрессии? Поскольку я зачислен на факультет машинного обучения для биоинформатики и мне нужна тема для исследовательской работы, которую я должен представить к концу семестра, я направил всю свою ярость на эту тему.

Спасибо Центру по контролю и профилактике заболеваний (CDC) за предоставление набора данных, с которым может поиграть каждый. Я приобрел Систему наблюдения за поведенческими факторами риска 2020 на их веб-сайте. Используя стороннюю библиотеку в R, данные BFRSS были импортированы в фрейм данных. Фрейм данных содержал 401 958 наблюдений 279 переменных.

Предварительная обработка

Однако сейчас нас интересуют только переменные качества жизни, поэтому мы оставляем 18 (GENHLTH, PHYSHLTH, MENTHLTH, POORHLTH, HLTHPLN1, PERSDOC2, MEDCOST, CHECKUP1, HLTHCVR1, RENTHOM1, CPDEMO1B, EMPLOY1, INCOME2, EDUCA, CHILDREN, EXERANY2, SLEPTIM1, ADDEPEV3) и удалить остальные. ADDEPEV3 будет зависимой переменной в модели, поскольку она указывает, есть ли у человека депрессивное расстройство или нет.

Словарь данных есть и на сайте BFRSS. Глядя на него, необходимо приписать некоторые факторы, поскольку они содержали Не знаю и Отказано. Указанные значения были заменены медианным значением, если переменная является числовой, и модой, если переменная является категориальной. Это было сделано только для предсказателей. Для зависимой переменной они будут удалены из фрейма данных. Окончательный набор данных представлял собой 394 029 наблюдений за кадром данных с 18 переменными.

Соотношение лиц без депрессии по сравнению с лицами с депрессией составляет 76,6%. Чтобы исправить это, я выбрал даунсэмплинг. Кроме того, мой компьютер не может обрабатывать огромное количество данных. НАМ ПОТРЕБУЕТСЯ САХАРНЫЙ ПАПА. Набор данных был разделен на 75 % обучающего набора и 25 % тестового набора с использованием библиотеки каретки.

Машинное обучение

Модели машинного обучения с учителем, которые я использовал, — это Наивный Байес (с использованием библиотеки кареток), K-ближайших соседей (с использованием библиотек кареток, классов и gmodels), Дерево решений (с использованием библиотек rpart и rpart.plot), Машина опорных векторов (с использованием библиотеки e1071). ), логистическая регрессия (с использованием библиотеки e1071) и случайный лес (с использованием библиотеки randomForest). KNN, SVN и Random Forest подверглись настройке параметров в качестве дополнительного шага.

Обучающий набор был загружен в модели ML и проверен на соответствие тестовому набору. Матрица путаницы была создана для каждой модели. Используя матрицу, были рассчитаны показатели точности, чувствительности, специфичности, прецизионности и F-показателя.

Выводы

KNN предсказал с наилучшей точностью на 91,02%, в то время как наивный байесовский прогноз был самым низким с 76,65%. Однако, глядя на результаты, все модели предсказывали правильно более чем в 75% случаев.

Интересно, что здоровье и доход являются наиболее значимыми предикторами депрессии. Если мы интерпретируем это с помощью модели шансов, шансы иметь депрессивное расстройство, при сохранении всех других переменных постоянными, будут на 8,67% выше для каждого увеличения количества дней с плохим психическим здоровьем (MENTHLTH), на 24,73% выше для каждого дня. ухудшение общего состояния здоровья (GENHLTH), на 2,45% выше при каждом увеличении количества дней плохого самочувствия (POORHLTH) и на 5,93% ниже при каждом увеличении дохода (INCOME2).

Примечания

Отнеситесь к этому исследованию с недоверием. Депрессия — сложное заболевание, и это всего лишь один из аспектов нашей жизни. Вы можете быть «нормальным», даже если препятствия против вас, или, наоборот, вы можете страдать от депрессии, даже если у вас есть все богатства мира.

Так мама делает тебя счастливым? Так или иначе, это так. Давайте будем настоящими. Мы живем в капитализме. Все наши основные потребности имеют свою цену. Например, поскольку здоровье является определяющим фактором, как вам удается быть здоровым? Еда, упражнения, сон и лекарства. Еда и лекарства стоят дорого. Для тех, кто живет, сводя концы с концами, как они справляются с переменами? Это определенно повлияет на их психическое здоровье, и цикл продолжается.

Я бы хотел, чтобы на Филиппинах было что-то подобное. В основном мы живем в бедности, значит ли это, что большинство из нас страдает депрессией? Это натянуто, но над этим стоит задуматься.

Полностью статью можно посмотреть здесь. Эта статья не рецензировалась и не публиковалась. Я не знаю, как и могу ли я себе это позволить. Кроме того, я не думаю, что это достаточно хорошо для публикации в журнале. Глупая сука точно не пройдет. Не стесняйтесь внимательно изучать исходный код здесь.

PS. Все еще нуждается в хранителе глюкозы. КАК ОЧЕНЬ НУЖНО.