Часть 1 из 2 — Линейная регрессия

Предупреждение

Эта модель и сопутствующее исследование предназначены исключительно для исследовательских целей и НЕ должны использоваться вместо разговора с медицинским работником об изменениях в питании, фитнесе и образе жизни.

вступление

У многих людей сложные отношения со своим телом и своим весом. Как человек, который работал профессиональным личным тренером, инструктором по групповому фитнесу и менеджером клуба здоровья, я чувствителен к этому и намерен подходить к этой теме с максимальной чуткостью. Этот пост в блоге является первой частью серии из двух частей, посвященных использованию высококачественных моделей для изучения данных, связанных с факторами, которые могут привести к недостаточному весу, «нормальному весу», избыточному весу или ожирению. Никакая информация в этом посте не будет использована для умаления или стыда кого-либо из вышеуказанных групп населения. В этом посте будет рассмотрено только то, насколько хорошо разные модели могут предсказать ИМТ, если им предоставлен только выбор здорового образа жизни, но не рост или вес.

ИМТ? Но БМ-Почему?

ИМТ означает индекс массы тела и является одним из наиболее распространенных способов измерения того, к какой весовой категории принадлежит человек. Обычно он измеряется как: (вес в килограммах)/(рост в метрах * рост в метрах). Поскольку ИМТ можно определить только по росту и весу человека, мы исключим эти две переменные из нашей модели.

Набор данных

Этот набор данных получен из исследования, проведенного Фабио Мендосой Палечор и Алексис де ла Ос Манотас в Университете де ла Коста, CUC, Колумбия, для оценки уровня ожирения на основе пищевых привычек и образа жизни. Набор данных можно изучить здесь.

Модель

Поскольку ИМТ являются числовыми и непрерывными (каждая весовая категория представляет диапазон значений ИМТ), в этом первом посте будет предпринята попытка создать модель, которая может точно предсказать число ИМТ человека, учитывая только факторы здоровья и образа жизни. Такая модель называется моделью линейной регрессии, что (для людей, не занимающихся математикой) просто означает, что модель попытается найти линейную зависимость между ИМТ и переменными, которые я буду в нее вводить. После обучения на большом количестве данных он попытается делать прогнозы о людях, которых никогда раньше не видел, исключительно на основе их образа жизни/здоровья.

Функции

После обучения и точной настройки моей модели линейной регрессии в окончательной модели использовались следующие функции, которые перечислены в порядке важности для модели:

  1. Есть ли ожирение/избыточный вес в вашей семейной истории?
  • Ответ «да» значительно повысил уровень ИМТ, предсказанный моделью.

2. Возраст (в годах)

  • В пожилом возрасте значительно повысился уровень ИМТ, предсказанный моделью.

3. Как вы добираетесь до работы?

  • Общественный транспорт значительно повысил уровень ИМТ, предсказанный моделью. Мотоциклы и велосипеды очень мало повлияли на модель. Ходьба практически не повлияла на модель.

4. Как часто вы употребляете алкоголь?

  • Ответ никогда значительно не снижал уровень ИМТ, предсказанный моделью. С ответами о том, что иногда или часто у них похожие отношения, хотя и гораздо менее значимые.

5. Как часто вы едите овощи?

  • Более высокие частоты значительно повысили уровень ИМТ, предсказанный моделью.

6. Как часто вы перекусываете?

  • Ответ часто значительно снижал уровень ИМТ, предсказанный моделью. Ответ «иногда или никогда» имел противоположный эффект, но был гораздо менее значимым.

7. Часто ли вы употребляете высококалорийные продукты?

  • Ответ «да» повысил уровень ИМТ, предсказанный моделью.

8. Как часто вы занимаетесь спортом?

  • Более высокие частоты снизили уровень ИМТ, предсказанный моделью.

9. Следите ли вы за своими калориями?

  • Ответ «да» снизил уровень ИМТ, предсказанный моделью.

10. Сколько литров воды вы выпиваете в день?

  • Чем больше литров, тем выше уровень ИМТ, предсказанный моделью.

11. Вы мужчина?

  • Особо следует отметить, что исследование включало только мужчин и женщин в их гендерный вопрос. Неясно, участвовал ли кто-либо из трансгендеров в исследовании, был ли включен любой, кто идентифицирует себя вне гендерной бинарности, или эти варианты были включены в опросы/интервью. Положительный ответ на вопрос, являетесь ли вы мужчиной, снизил уровень ИМТ, предсказанный моделью, но эффект был очень небольшим.

12. Сколько основных приемов пищи вы едите в день?

  • Более высокие частоты повышали уровень ИМТ, предсказанный моделью, но эффект был очень небольшим.

Специальное примечание

Исследование включало дополнительные вопросы об образе жизни и здоровье, но те, которые не были включены, были отброшены, потому что они либо наносили ущерб прогнозам модели, либо не влияли на прогнозы модели.

Итак, были ли предсказания модели точными?

При проверке данных, которые она никогда раньше не видела, модель определила, что факторы образа жизни/здоровья объясняют около 43,18% изменчивости данных. Это означает, что, хотя эта модель не подходит для прогнозирования точных уровней ИМТ, она показывает, что факторы здоровья/образа жизни играют очень важную роль в наших уровнях ИМТ. Кроме того, это показывает, что ни один выбор образа жизни/здоровья не является основной причиной любого уровня ИМТ (конечно, вероятно, есть редкие медицинские исключения). Это также означает, что любое из соображений в приведенных выше характеристиках следует рассматривать с долей скепсиса и не обязательно принимать за абсолютную истину (люди очень разные и разные, и часто разные вещи влияют на людей по-разному).

О чем будет часть 2 этого поста?

Часть 2 будет посвящена переводу значений ИМТ в соответствующие классы и превращению их в категории. После этого я могу запустить несколько моделей классификации этих данных и посмотреть, получится ли у нас более эффективная модель. ВАУ! ВАУ!

Звучит безподобно! Могу ли я попробовать эту модель?

Из-за противоречивых отношений, которые многие люди имеют со своим телом и весом (особенно в условиях пандемии) в сочетании с моделью, которой немного не хватает предсказуемости, было бы безответственно кодировать функцию для этой конкретной модели, чтобы кто-нибудь мог попробовать и потенциально может принести больше вреда, чем пользы. Однако, если вы заинтересованы в модели для исследовательских целей (и у вас есть опыт работы с Python), не стесняйтесь обращаться к нам, и я буду более чем счастлив прислать свой блокнот Jupyter со всеми шагами, которые я предпринял, и самой моделью. .

Кулио Хермано! Ваше сообщение в блоге заставило меня задуматься о ком-то, кто мне небезразличен, чей ИМТ/вес вызывает у меня беспокойство. Как мне подойти к этому разговору?

Короткая версия, вы не должны. Редко бывает нормально комментировать чей-то вес (даже комплименты за чью-то потерю/прибавку в весе могут быть вредными, потому что это усиливает клеймо, что они менее ценны, если вес не «нормальный»). Вес другого человека (или ИМТ) на самом деле зависит только от него самого, его медицинского консультанта и любого, кому он решит передать эту информацию.

Если вы сами боретесь с расстройством пищевого поведения, обратитесь в горячую линию Национальной ассоциации расстройств пищевого поведения по адресу https://www.nationaleatingdisorders.org/help-support/contact-helpline.