Что нужно и что нельзя делать при регрессионном анализе

Проект моделирования

Итак, вы аналитик, и вы, наконец, получаете долгожданный проект, придумывая модель для прогнозирования ключевого показателя продаж. Или, может быть, ваша команда занимается статистикой, и вам нужно сообщить или придумать модель для анализа ваших данных. Возможно, вы аналитик по маркетингу, и вам нужно обработать некоторые цифры, чтобы предсказать, насколько эффективны рекламные доллары для привлечения новых клиентов.

Независимо от профессии, вы знаете, что машинное обучение на вашей работе или в бизнесе — это то, чему вы учились и всегда готовы прыгнуть. Но как насчет того, чтобы сообщить о результатах остальной части вашей команды?

Вы быстро понимаете, что ваша команда не разбирается в данных или статистике. Что вы делаете?

Если вы, как и большинство аналитиков и специалистов по данным, пытаетесь использовать самую простую, но лучшую модель для работы, полагая, что вашей команде будет легче ее понять, а вам также будет легче ее объяснить.

Изучив свой набор инструментов для моделирования машинного обучения, вы решите, что стандартная линейная регрессия — это лучшая модель для понимания неспециалистом, которая подходит для ваших конкретных потребностей в анализе.

Если вы когда-либо были в этой лодке или планируете работать с командой, состоящей из нескольких специалистов, в которой много членов, которые боятся статистики или не очень хорошо умеют считать, вот некоторые вещи, о которых следует помнить, сообщая результаты линейной регрессии вашему специалисту. команда и коллеги.

Не показывайте им таблицу ANOVA

Последнее, что вы хотите сделать, это спутать их с выводом программного обеспечения, предназначенным для анализа статистиком или специалистом по данным. В то время как мы любим таблицы ANOVA за богатый объем информации о модели. Для вашей команды важнее, чтобы они знали, что означают результаты фактической модели. Вместо этого вы можете показать им F-статистику-p-значение, среднеквадратичную ошибку, значения R-квадрата и коэффициент корреляции. Вы хотите дать общий комментарий о подгонке моделей и общих отношениях, найденных на основе этой статистики.

Не указывайте предварительные оценки бета-версии

Так же, как таблица ANOVA может быть немного властной, важно преобразовать бета-коэффициенты, которые вы получаете из своей модели, с точки зрения реальных ставок, которые люди могут понять.

Например, простая модель, рассматривающая взаимосвязь между маркетинговыми долларами и новыми клиентами, может получить бета-версию, скажем, 0,03 клиента на 1 потраченный доллар. Это не имеет большого смысла, если вы не достаточно хорошо разбираетесь в числах и единицах измерения. Лучший способ выразить это — 3 клиента / 100 потраченных долларов. Выход заключается в том, чтобы попытаться преобразовать коэффициенты регрессии, чтобы ваша команда их понимала. Это включает в себя подчеркивание того, что эти показатели также являются средними.

Уберите отрицательные знаки или возьмите обратное

Что касается помощи вашим коллегам и команде в понимании результатов регрессии из вашего проекта прогнозного моделирования, важно, чтобы вы переформулировали некоторые коэффициенты, а также сделали их масштабы понятными. Например, если модель была запущена с бинарной входной переменной, скажем, пациентами мужского и женского пола, а вашей выходной переменной является уровень тестостерона. Тогда для неспециалиста будет немного разумнее сказать, что тестостерон составляет 1,5 единицы для мужчин, чем сказать, что тестостерон составляет -1,5 единицы для женщин. Запишите утверждение: «Тостерон у мужчин на 1,5 единицы выше, чем у женщин».

Также придерживайтесь положительных чисел; большинство людей лучше понимают их, чем отрицательные числа.

С двумя непрерывными переменными может быть более разумно взять обратную бета-оценку, например, если у вас есть количество случаев, когда пациент болел гриппом сверх стоимости его страховых требований, вас может больше интересовать, сколько они заплатили. в страховых случаях за каждый раз, когда они заболели гриппом. Обратное значение этой скорости поможет вам лучше понять эту скорость.

Просто скажите: «Эта переменная не была важной (значительной)» и покончите с этим

Иногда ваш начальник, главный исследователь, члены вашей команды или коллеги будут спрашивать об определенной переменной, которая использовалась в вашей модели, но оказалась несущественной.

Разумнее всего будет просто заявить, что эти переменные оказались неважными для прогнозирования результата. Иногда спрашивающий настолько уверен, что переменная будет важна, но в реальном прикладном анализе это может быть не так. Разумнее всего заранее перечислить неважные переменные и представить бета-коэффициенты только для значимых переменных.

Выход состоит в том, чтобы сделать представление результатов линейной регрессии как можно более простым и понятным. Помните, что ваша команда может ценить статистику и машинное обучение только в том случае, если они это понимают.

Спасибо, парень. Если вам, ребята, понравилась эта статья, не забудьте похлопать и поделиться. Также ознакомьтесь с бесплатным доступом к нашим статьям в нашем Блоге

(Фирменный контент: у нас также есть контент, доступный на нашем канале YouTube. Присоединяйтесь к нам в Twitter или Facebook)