Статистические концепции для людей, не разбирающихся в математике

Почему люди, не разбирающиеся в математике или статистике, избегают использования простой статистики для помощи в принятии повседневных решений? Моя теория состоит в том, что это по той же причине, по которой я держусь подальше от парусного спорта. Они не знают, как это сделать, и это наполнено непонятными терминами.

В этой серии я хочу попытаться демистифицировать некоторые основные статистические концепции, которые, как я думаю, помогут вам принимать более правильные решения. Если хотите, это статистические концепции для не-математиков, созданные не-математиками.

Принимая решения

Обычно, когда вы принимаете решение, вы основываете его на предположении, что существует связь между тем, что вы делаете, и результатом, которого хотите достичь. Вы хотите увеличить продажи, поэтому тратите немного денег на маркетинг. Вы хотите получать более высокие оценки, поэтому учитесь больше. Выбор между вариантами редко бывает недостаточным, так как же решить, какой из них лучше?

Представьте, что вы финансовый директор компании, и ваш руководитель отдела продаж хочет провести рекламную кампанию для увеличения продаж. Он говорит, что «[..] в прошлом году мы провели кампанию, которая стоила 20 000 долларов, но она увеличила наши продажи на 82%! Нетрудно сделать еще один!». Бюджеты всегда ограничены, так что тщательно обдумайте это. Имеет ли это смысл? Если бы только был способ проверить, прав ли он..

Регрессия — статистический помощник

Здесь на сцену выходит регрессия. Линейная регрессия — это метод того, что мы называем статистическим обучением. В своей простейшей форме (подходящим названием «простая регрессия») она имеет дело с одной независимой переменной (деньги, потраченные на рекламу) и зависимой переменной (доход от продаж). Предполагается, что между ними существует связь. В математических терминах мы обычно обозначаем объясняющую переменную X и зависимую переменную Y.

Прелесть в том, что мы можем использовать регрессию как для проверки того, действительно ли существует взаимосвязь между X и Y, так и для предсказания значения Y, используя различные значения X. Другими словами, мы можем проверить утверждения нашего Главы. продаж. Затем мы можем использовать модель, чтобы прогнозировать, насколько увеличится наш доход, если мы потратим определенную сумму денег на рекламу. Это должно помочь нам в принятии решений.

Людей, незнакомых с математикой, приведенная ниже формула может испугать и сбить с толку. Однако это всего лишь точный способ сказать, что мы думаем, что размер дохода от продаж, который принесет наша рекламная кампания, зависит от того, сколько денег мы потратим.

Последняя буква, похожая на букву Е, называется термином ошибки, и это причудливый способ сказать, что иногда случаются вещи, которые модель не может точно учесть, т. е. иногда она будет неправильной.

Как это выглядит и как это читать

В нашем примере вы отвечаете, что руководитель отдела продаж должен будет предоставить некоторые данные для подтверждения своей теории, прежде чем он получит бюджет для новой кампании.

Так он и делает. В прошлом году отдел продаж провел 200 кампаний, а также зафиксировал, сколько выручки от продаж было у компании за тот же период.

Построив эти данные, вы получите следующую картину:

Черные точки показывают, сколько денег было потрачено на эту кампанию и сколько продаж было совершено за тот же период. Глядя на данные, мы видим, что одна кампания стоила 25 680 долларов и принесла 3,84 миллиона долларов дохода. На другом конце шкалы мы видим, что кампания стоимостью 520 320 долларов США принесла доход в размере 28,6 млн долларов США.

Данные, похоже, подтверждают теорию нашего руководителя отдела продаж. Однако регрессия выходит за рамки простого просмотра данных. Моделируя отношения, мы могли бы получить такое изображение:

Немного важной терминологии. Синяя линия, называемая «линией регрессии», представляет собой то, что мы называем «моделью». Статистическая модель пытается объяснить взаимосвязь между деньгами, потраченными на рекламу, и полученным доходом от продаж. Линия проведена как набор прогнозов, что означает, что модель предсказывает, что если мы потратим x денег на рекламу, это приведет к y дохода. Если модель хороша, черные точки, представляющие фактические результаты, должны быть близки к синей линии (модель влияет на линию, а не на точки).

Помните ту забавную букву E в формуле? Чем выше член ошибки, тем больше будут суммарные расстояния всех черных точек до синей линии. Или, другими словами, насколько точна модель. Это важно, когда руководитель отдела продаж хочет получить 1 000 000 долларов на свою новую кампанию и утверждает, что модель предсказывает доход в 53 миллиона долларов.

График выше такой же, как и предыдущий, но с цветными линиями, указывающими расстояние между тем, что предсказала наша модель, и фактическим результатом. Мы хотим, чтобы они были как можно короче. На графике видно, что это довольно приличная модель. Результаты не будут идеальными.

Как вы интерпретируете регрессию?

Пока это все равно, что сказать, что ветер в парусах, заставь лодку идти вперед. Это очевидно любому. Но когда дело доходит до интерпретации результатов регрессионного анализа, математики, которые так и не узнали разницу между левым и правым бортами, мстят миру. Если вы думали, что формула пугает, пришло время получить подушку, за которую можно спрятаться.

На изображении выше показаны некоторые результаты, которые вы получаете при выполнении регрессии (результаты будут различаться в зависимости от того, какой инструмент вы используете, но термины будут довольно похожими), и это может испугать. Потому что без некоторых знаний в этой области это не имеет смысла. Насколько вы должны заботиться о разных числах, зависит от того, что вы делаете.

На данный момент нас волнуют две вещи; есть ли связь (и насколько она сильна), и насколько точна модель. Давайте сосредоточимся на них и проигнорируем остальные:

Говоря языком регрессии, нас волнует, называется ли отношение «значимым». Короткая и упрощенная версия заключается в том, что чем ниже значение, тем больше мы можем быть уверены в том, что между ними действительно существует связь. В общем, ищем значение ниже 0,05, которое имеем в данном случае. Примечание. существует большая разница между корреляцией (взаимная связь между двумя вещами), которую мы измеряем, и причинно-следственной связью. (одно вызывает другое). Мы можем измерить силу корреляции, но это не означает, что реклама вызывает продажи.

Второй — это то, что известно как R-квадрат или, что еще лучше, скорректированный R-квадрат. Это кое-что говорит нам о том, насколько хорошо наша модель объясняет реальный мир. Он измеряется как число от 0 до 1, и в идеале вы хотите, чтобы он был ближе к 1. Что такое «хороший» показатель R-квадрата, зависит от того, что вы моделируете, но в целом вы должны попытаться получить значение выше, чем 0,5.

Примечание. модель с коэффициентом, близким к 1, скорее всего, не будет полезна для прогнозирования новых данных. Подобные оценки обычно возникают, когда модель очень хорошо предсказывает данные, которые она видела (история), но это происходит за счет того, что она не может адаптироваться для прогнозирования данных, которых она не видела (будущее). Сравните это с подготовкой к экзамену, читая учебную программу, и с отработкой подмножества обычно задаваемых вопросов. В первом случае у вас будут хорошие шансы получить правильные ответы, но во втором высока вероятность того, что вы не сможете ответить на вопросы, не относящиеся к тем, которые вы изучали.

Но.. Я уже знаю, что реклама помогает продажам!

Ага! Да, да. Две важные вещи в этом. Будет много решений, о которых вы этого не знаете. Но; есть разница где рекламировать? Учитывая, что у вашего стартапа есть ограниченное количество наличных денег для рекламы, на что лучше всего потратить эти деньги?

В приведенном выше примере мы использовали простую линейную регрессию, где у нас была одна независимая переменная (деньги, потраченные на рекламу). Другой способ — использовать множественную линейную регрессию. Это означает, что у нас есть несколько независимых переменных, позволяющих моделировать взаимосвязь между деньгами, потраченными на рекламу в определенных каналах, и доходом от продаж. Это означает, что мы можем сравнить эффекты и увидеть, на что лучше всего потратить наш бюджет.

Опять же, просмотр графиков не обязательно даст вам ответ, но мы можем получить некоторую информацию, прежде чем смотреть на результаты. Глядя на линии и графики регрессии, вы должны обратить внимание на две вещи.

Во-первых, обратите внимание на угол и направление линии (также известный как наклон). Если он указывает вверх, мы называем связь положительной корреляцией, а если он указывает вниз, мы называем это отрицательной корреляцией. Плоская линия указывала бы на отсутствие связи. В нашем случае все четыре линии (по одной для всех каналов + по одной для каждого канала) имеют наклон вверх, что означает наличие некоторой взаимосвязи, причем положительной.

Положительный означает, что если вы потратите больше денег на рекламу, вы можете ожидать увеличения доходов от продаж. Отрицательное отношение будет означать, что чем больше денег потрачено, тем меньше продаж. Однако тот факт, что есть наклон вверх или вниз, не означает, что связь значительна (т. Е. Это вполне может быть просто совпадением).

Во-вторых, посмотрите, насколько близко точки расположены к линии, и их рисунок. Например, бирюзовые точки (газета) появляются дальше от линии регрессии, и здесь наблюдается менее очевидный паттерн. Для сравнения, фиолетовые точки (YouTube) намного ближе к линии и с более очевидным рисунком от нижнего левого до верхнего правого угла. Это означает, что связь между деньгами, потраченными на рекламу на YouTube, и доходами от продаж сильнее, чем между деньгами, потраченными на рекламу в газетах.

Давайте посмотрим на модель и снова проигнорируем то, что нас не интересует:

Мы видим, что две объясняющие переменные, деньги, потраченные на рекламу в Facebook и рекламу на YouTube, имеют большое значение. Однако деньги, потраченные на рекламу в газетах, не тратятся. С точки зрения непрофессионала, это означает, что есть хорошие шансы потратить деньги на рекламу в Facebook и YouTube, но не на газетную рекламу.

В реальных задачах и решениях модель очень часто бывает более сложной. Возвращаясь к нашей первой модели и примеру, мы выделяем 25 000 долларов нашему руководителю отдела продаж, и модель говорит нам, что на основе этого мы можем ожидать доход примерно в 6,3 миллиона долларов от продаж (Примечание: пожалуйста, не тратьте свои рекламные ресурсы). бюджет, основанный на этих цифрах, они ведь всего лишь примеры).

Еще один интересный вопрос, учитывая вторую модель с разными рекламными каналами: «Как мы оптимизируем наш бюджет, чтобы получить наилучшие результаты?». Это и подобные проблемы оптимизации станут темой другого поста в этой серии.

Модель и графики, используемые в этом посте, были созданы с использованием языка статистического программирования R, но похожие графики и анализ можно выполнить с помощью таких инструментов, как Excel, Stata, Python и многих других.

Вопросы, комментарии или отзывы? Пишите ниже в комментариях!

Статистические концепции для людей, не разбирающихся в математике — Часть I: Регрессия

Принимая решения

Регрессия — статистический помощник

Как это выглядит и как это читать

Как вы интерпретируете регрессию?

Но.. Я уже знаю, что реклама помогает продажам!

Вопросы по теме