Игра с данными до того, как они станут больше

Небольшие данные можно анализировать и обрабатывать на одном компьютере. Это отправная точка обучения анализу данных. Целью анализа небольших данных является понимание обобщения, прогнозирования, вывода и причинно-следственной связи данных путем изучения ключевых концепций машинного обучения и статистического вывода.

Линейная регрессия

Выборку данных можно обобщить с помощью статистических данных, таких как среднее значение, медиана и стандартное отклонение. Мы сосредоточимся на конкретном типе обобщения: моделировании взаимосвязи между наблюдениями. Формально мы хотим найти функциональную взаимосвязь f между матрицей дизайна X и наблюдаемым результатом Y. Мы называем отношения f «моделью».

Модель линейной регрессии является распространенной. Мы часто используем обычный метод наименьших квадратов (OLS) для подбора параметров путем минимизации суммы квадратов ошибок (SSE). Вектор остатков — это разница между реальным Y и подобранным Y. Он ортогонален всему пространству X. Сумма остатков равна нулю, а исходное и подогнанное значения имеют одно и то же среднее значение выборки. И имеем следующую интерпретацию:

Дисперсия исходного Y = |Остатки|² + Дисперсия подогнанного Y

Норма остатков показывает, насколько изменение Y может быть «объяснено» моделью. Формально мы используем R² как меру соответствия модели в выборке. Когда R² велико, большая часть дисперсии результирующей выборки «объясняется» подходящим значением. Обратите внимание, что R² является мерой только в выборке, и на нее легко может повлиять переобучение.

Коллинеарность возникает, когда некоторые столбцы X не являются независимыми, что приводит к неуникальной модели через МНК. Мы называем модель неидентифицируемой. Эта проблема часто возникает, когда модель имеет очень большую размерность, поэтому имеет достаточно степеней свободы, чтобы идеально соответствовать данным.

Модель регрессии пытается оценить условное среднее значение результата с учетом ковариат. В среднем подогнанные значения ближе к своему среднему, чем ковариаты к своему среднему. Это часто называют «возвратом к среднему» или «регрессией к среднему».

Линейную регрессию можно использовать за пределами линейности. Добавление членов более высокого порядка (X²) и взаимодействий (X1X2) приводит к более гибким моделям и эффекту одной ковариаты фиксируется несколькими коэффициентами.

Иногда при наличии большого количества ковариат мы хотим, чтобы наша регрессия выявляла только значимые коэффициенты. Вместо минимизации SSE мы регуляризируем целевую функцию, минимизируя SSE + условия регуляризации. Общие примеры включают регрессию Риджа (регуляризация L-2), регрессию Лассо (регуляризация L-1) и условную медиану (абсолютные отклонения).

Чтобы сделать регрессии более осмысленными, мы часто преобразовываем данные в другую форму. Логарифмы положительных переменных, центрирование и стандартизация являются распространенными методами преобразования данных.

Прогноз

Наши данные — это всего лишь небольшая выборка, полученная из более широкой совокупности. Мы используем небольшую выборку, чтобы рассуждать о населении. Это известно как обобщение.

Первым шагом к рассуждениям о совокупности является построение подогнанной модели f, чтобы Y~f(X). В этой модели мы фактически делаем два утверждения:

  • Y предсказывается f(X). Это относится к предсказанию, которое зависит только от корреляции, а не от причинно-следственной связи.
  • Опишите P(X, Y), интерпретируя f. Это относится к выводу, который копается в причинно-следственных отношениях.

Сейчас мы сосредоточимся только на предсказании. Задача прогнозирования формулируется следующим образом: по данным X и Y построить подогнанную модель f так, чтобы при заданном новом векторе ковариации X' из совокупности, ошибка предсказания между f(X') и соответствующим Y' сводится к минимуму. В зависимости от типа переменной Y задача прогнозирования имеет два класса: регрессия и классификация.

Наша задача — минимизировать ошибку обобщения E[error(Y', f(X'))|X, Y], т.е. минимизировать ошибку предсказания новых данных с заданными данными. Нам нужно разделить данные на три группы: обучение, валидация и тестирование. Проверка выбирает модель с заниженной ошибкой обобщения. Тестирование оценивает реальную ошибку обобщения.

Имея ограниченные данные, мы можем использовать оценки в выборке для измерения ошибки прогноза. Существует два подхода: перекрестная проверка и оценка модели.

Философия перекрестной проверки состоит в том, чтобы повторить процесс обучения модели на другом подмножестве заданных данных и протестировать ее на оставшихся. K-кратная перекрестная проверка разбивает данные на K подмножеств и проверяет каждое из них путем обучения модели на остальных K-1 подмножествах. Когда K=N, это называется перекрестной проверкой «Опустить один». На практике мы часто используем K = 5~10.

Оценка модели использует саму выборку для вычисления оценки ошибки прогноза. Общие оценки модели включают статистику Cp Маллоу, информационный критерий Акаике (AIC), байесовский информационный критерий (BIC) и т. д. По необходимости этот подход работает только для определенных классов моделей. Таким образом, в реальной жизни мы склонны использовать перекрестную проверку оценок модели.

Смещение и дисперсия

Модель прогнозирования, которая минимизирует квадратичную ошибку, представляет собой условное ожидание f(X)=E[Y| X], но, к сожалению, мы не знаем распределения (X, Y). Однако у нас есть модель населения, чтобы удовлетворить условное ожидание:

Y =f(X) + ε, где E[ε|X ] = 0

Интересно узнать, что произойдет, если повторно использовать одну и ту же модель в разных обучающих наборах. Ключом к ошибке прогнозирования является понимание (f'(X) - f(X))² в два аспекта:

  • Насколько среднее значение f’(X) близко к f(X). Мы называем это предвзятостью. Смещение — это систематические ошибки в прогнозах на тестовых данных независимо от тренировочного набора.
  • Как f’(X) меняется в своей вселенной. Мы называем это дисперсией. Дисперсия — это изменение прогнозов на тестовых данных по мере изменения обучающей выборки.

Формально мы можем разложить ошибку предсказания на три части:

Ошибка прогноза = неустранимая ошибка + смещение² + дисперсия

Как правило, более сложные модели, как правило, имеют более высокую дисперсию и более низкое смещение, а менее сложные модели, как правило, имеют более низкую дисперсию и более высокое смещение. На практике важно знать, почему систематическая ошибка/дисперсия может быть высокой или низкой.

Выбор модели

Выбор модели — это обработка сравнения набора моделей. Есть две основные цели выбора «хорошей» модели: минимизировать ошибку прогноза и повысить интерпретируемость. В результате мы часто предпочитаем простые модели сложным моделям.

На практике выбор модели может осуществляться в двух направлениях: обратный выбор и прямой выбор. Обратный отбор заключается в выборе лучшей модели в подмножествах текущего набора гипотез. Прямой выбор заключается в добавлении одной ковариаты, что приводит к наибольшему уменьшению ошибок в итерациях.

Обратите внимание, что вы по-прежнему уязвимы для следующих проблем:

  • Одни и те же данные повторно используются при выборе модели.
  • Вы все еще недооцениваете ошибку прогноза из-за смещения вниз.

И регрессия Лассо, и регрессия Риджа являются методом «усадки» для выбора модели. Все, что вам нужно сделать, это настроить λ, чтобы минимизировать ошибку предсказания. Обратите внимание, что между подходами Лассо и Риджа есть разница: Лассо имеет тенденцию обрезать большее количество коэффициентов до нуля, в то время как Ридж имеет тенденцию снижать веса для менее важных коэффициентов.

Классификация

Проблема классификации связана с прогнозированием дискретных результатов, особенно с прогнозированием бинарных результатов. Формально классификация очень похожа на регрессию, за исключением того, что Y относится к {0, 1}.

Когда мы говорим о метриках классификации, у нас есть четыре категории, основанные на фактическом результате и прогнозе:

истинно положительный, истинно отрицательный, ложноположительный, ложноотрицательный.

У нас также есть набор понятий, с которыми нужно иметь дело: (выясните их сами)

точность, средняя потеря 0–1, чувствительность, специфичность, точность, отзыв, ошибка типа I, ошибка типа II, частота ложных открытий и т. д.

Байесовский классификатор максимизирует вероятность своего предсказания Y при заданном X, чтобы минимизировать потери 0–1. Это недостижимо, так как мы не знаем модель населения, но может быть эталоном для измерения того, насколько хороша модель классификации.

Примером является классификация K-ближайших соседей (KNN). Он аппроксимирует байесовский классификатор локальным усреднением. В общем, модель KNN можно представить как NN (k, порог), где k определяет локальность, а порог определяет смещение в сторону ложноотрицательного результата.

Бесплатных обедов не бывает. Во многих случаях нам нужно посмотреть на график истинной положительной скорости против ложноположительной скорости (называемой ROC-кривой). Площадь под кривой — это общая мера качества классификатора, но нам все еще нужно искать компромисс в зависимости от вариантов использования.

Логистическая регрессия

Логистическая регрессия является примером обобщенной линейной модели (GLM), где функция связи представляет собой логит-функцию g. Он производит подобранные значения, которые всегда лежат в [0, 1]. В качестве интерпретации он моделирует вероятность Y=1 при заданном X.

Мы также можем использовать подход со скрытыми переменными для интерпретации этой модели. Мы можем определить случайную переменную Z и переписать модель населения следующим образом:

Y = знак(Xβ+Z), где P(Z› г) = логистика (г)

В разных случаях использования Xβ+Z имеет разное толкование. Например, в эконометрике это часто относится к случайной полезности клиента.

Мы часто используем подход максимального правдоподобия, чтобы найти коэффициент β, т. е. найти β, который максимизирует шанс увидеть данные Y и X, учитывая модель популяционной логистической регрессии. Вот почему это дискриминационная модель.

Вывод

Мы можем сделать довольно хороший прогноз, не углубляясь в модель населения, но знание модели населения помогает нам делать более точные прогнозы, интерпретировать модель, объяснять причинно-следственные связи и принимать правильные решения. Вот почему нам часто нужны выводы, а не просто предсказания.

Вывод состоит в том, чтобы открыть черный ящик, чтобы понять и объяснить модель населения. Формально задача логического вывода задается выборкой X и Y, оценивая совместное распределение X и Y в население. Согласно правилу Байеса, нам нужно знать P(X) и P(Y|X).

В принципе, вывод имеет две основные цели:

  • Оценка модели населения: каково мое лучшее предположение?
  • Количественная оценка неопределенности: насколько я уверен в своем ответе?

Давайте начнем с примера, где мы много раз подбрасываем монету. У нас есть две дихотомии, основанные на наших предположениях.

Во-первых, знаем ли мы что-нибудь о дистрибутиве? Непараметрический вывод не делает предположений о характере распределения, генерирующего наши данные, в то время как параметрический вывод предполагает, что мы знаем «форму» распределения. Обычно мы фокусируемся на параметрическом методе, но на самом деле непараметрический вывод — это просто параметрический вывод с бесконечным числом параметров.

Во-вторых, как выглядят параметры? Частотисты рассматривают параметры как фиксированные (детерминированные), а байесовцы рассматривают параметры как случайные. В глазах частых монета может быть только честной или нечестной (другими словами, они верят в истину), но в глазах байесовцев она может быть честной на 60% или около того (они не верят в истину).

Максимальная вероятность

Максимальное правдоподобие - это подход к оценке параметров. Он состоит из двух частей: вероятности и максимизации. Для вероятности мы спрашиваем, какова вероятность увидеть данные, которые у нас есть, с учетом одного возможного случая параметров. Для максимизации мы выбираем значения параметров, которые максимизируют шанс.

Формальное утверждение следующее:

максимизировать f(Y|θ) или log(f(Y|θ)) по возможным вариантам выбора θ

Решение для θ этой задачи оптимизации называется оценкой максимального правдоподобия (MLE).

Чтобы уточнить, максимальная вероятность НЕ является наиболее вероятным значением θ (т.е. P(θ|Y)). Это наиболее вероятный шанс увидеть данные, которые у нас есть. Мы просто выбираем значение параметра, чтобы это произошло с наибольшей вероятностью.

MLE имеет несколько свойств: он непротиворечив (более объективен по мере роста данных), асимптопически нормальный (по Гауссу), эквивариантен (g(θ)=g(θ')), асимптопически оптимальный (наименьшая дисперсия), асимптопически эффективный.

Частотный взгляд

Частотное мышление состоит в следующем:

Параметры θ фиксированы. Учитывая фиксированные параметры, существует множество возможных реализаций данных, как и множество параллельных вселенных. Мы получаем одно из осознаний, как будто мы живем в одной из параллельных вселенных, и мы используем только ту вселенную, в которой живем, чтобы рассуждать об «истинных» параметрах.

Он называется частотным, потому что основная идея состоит в многократном независимом повторении процедуры («симуляция параллельной вселенной»). Он рассуждает только из самих данных.

Распределение «истинного» параметра θ, если мы проводим моделирование параллельной вселенной, называется распределением выборки. Это не распределение данных, а распределение θ. Распределение выборки дает количественную оценку неопределенности, поскольку оно показывает, насколько, по нашим ожиданиям, изменится оценка, если мы будем повторять процедуру снова и снова. Эта идея лежит в основе частотного вывода, из которого выводятся многие частотные величины.

Вернемся к нашему примеру с подбрасыванием монеты. У нас есть ∞ параллельных вселенных, и у нас есть N флипов (выборок). Распределение выборки является биномиальным (N, q)/N. Среднее значение выборочного распределения является истинным параметром. Стандартное отклонение выборочного распределения называется стандартной ошибкой (SE).

По мере увеличения N выборочное распределение сходится к нормальному распределению, где среднее значение сходится к истинным параметрам, а SE уменьшается пропорционально 1/√N, и мы более уверены в наших оценках.

Обладая этими свойствами, частотник часто определяет количество неопределенности непосредственно через доверительные интервалы. В 95% наших параллельных вселенных MLE для θ будет в пределах 1,96*SE от истинного параметра θ, и граница также применяется к истинному θ. Итак, мы делаем следующее утверждение:

[MLE(θ) - 1,96*SE, MLE(θ)+1,96*SE] представляет собой 95% доверительный интервал для θ

Это не говорит о том, что истинный параметр с вероятностью 95% находится в доверительном интервале, потому что истинный параметр является фиксированным. В нем говорится, что доверительный интервал является случайной величиной, и если мы будем повторять процедуру снова и снова, истинный параметр будет лежать в 95% доверительных интервалах.

Начальная загрузка

Bootstrap — это мощный подход к оценке выборочного распределения любой статистики. Основная идея заключается в том, что повторная выборка из выборочных данных с заменой имитирует выборочное распределение модели населения.

По сути, подход начальной загрузки использует информацию из выборочных данных. При моделировании методом Монте-Карло многие эмпирические распределения из одной и той же выборки сходятся к хорошей оценке выборочного распределения.

Bootstrap делает очень мало предположений об исходной модели населения, что классифицирует ее как непараметрический метод, то есть модель с бесконечными параметрами. Однако это также может быть проблематично, поскольку требует, чтобы данные выборки генерировались как i.i.d. выборки из популяционной модели, и она в достаточной степени представляет популяционную модель.

Проверка гипотезы

Проверка гипотез предоставляет еще один способ количественной оценки нашей неопределенности, задавая вопрос, вероятно ли, что данные получены из определенного распределения.

Во-первых, мы определяем сценарий гипотезы:

Данные Y берутся из f(Y|θ), и для некоторого θ⁰ мы знаем, что верно либо θ = θ⁰, либо θ ≠ θ⁰. Мы называем случай, когда θ = θ⁰, нулевой гипотезой, а случай, когда θ ≠ θ⁰, называем альтернативной гипотезой.

Другими словами, нулевая гипотеза — это «одна точка», а альтернативная гипотеза — «все остальное».

Затем мы проводим проверку гипотезы, чтобы узнать, верно ли «null»:

Если истинный параметр равен θ⁰, Stats(Y) должен выглядеть так, как будто он получен из f(Y|θ). Мы сравниваем наблюдаемую статистику (Y) с распределением выборки при θ⁰. Если наблюдаемая статистика (Y) маловероятна из выборочного распределения, мы отклоняем нулевую гипотезу о том, что θ = θ⁰. В противном случае мы не можем отвергнуть нулевую гипотезу.

Интересно, что даже если мы отвергаем нулевую гипотезу, это не означает, что мы принимаем альтернативную гипотезу.

Неудивительно, что проверка гипотез имеет ложноположительные и ложноотрицательные результаты. Как правило, мы хотим иметь небольшую долю ложноположительных результатов, обеспечивая при этом небольшую долю ложноотрицательных результатов. Другими словами, мы обеспечиваем высокую мощность при небольшом размере.

«Размер» α (обычно 5%) определяется нами, а «мощность» определяется данными и тестом, который мы используем.

В разных тестах используется разная статистика тестов Stats(.). Для теста Вальда статистика (Y) = (θ-θ⁰)/SE. Мы отвергаем нулевую гипотезу, если θ⁰ не находится в доверительном интервале 1-α. У нас также есть t-тест и F-тест аналогичным образом.

P-значение теста дает вероятность наблюдения статистики теста столь же экстремальной, как и наблюдаемая, если бы нулевая гипотеза была верна. Формально это наименьший размер всех тестов, отвергающих нулевую гипотезу. С одной стороны, p-значение прозрачно, потому что отчет «статистически значимый» зависит от выбора α. С другой стороны, p-значение часто используется неправильно, потому что оно не является вероятностью истинности нулевой гипотезы. На самом деле это P (данные | нулевая гипотеза), а не P (нулевая гипотеза | данные).

Байесовский вывод

Байесовцы рассматривают параметры как случайные. Априорное — это распределение по параметрам, а апостериорное — это распределение параметров по данным. Правило Байеса гласит:

Апостериорная ~ вероятность * априорная

В отличие от частотного, байесовский вывод оценивает истинный параметр и количественно определяет неопределенность как с помощью апостериорного, так как апостериорное является распределением. Вы также можете построить достоверные интервалы, но в отличие от доверительных интервалов, параметр теперь является случайным.

Подобно MLE в частотных методах, нам часто нужна максимальная апостериорная (MAP) оценка в байесовском выводе. Если априор однороден, т. е. априор постоянен, оценка MAP фактически совпадает с оценкой MLE.

Теперь приора. Есть две точки зрения на приор. Субъективный байесианец говорит, что априорное значение — это сводка нашего субъективного мнения о данных. Объективный байесианец говорит, что априорное значение следует выбирать таким образом, чтобы оно было «неосведомленным».

Байесовский информационный критерий (BIC) часто используется для выбора модели. По сути, мы предполагаем априорность возможных моделей и выбираем модель с наибольшей апостериорной вероятностью.

Байесовский вывод часто работает хорошо, когда важна априорная информация. Однако он может работать плохо, если априор выбран неудачно. Например, если бы вы пережили Великую депрессию, вы, вероятно, не смогли бы правильно оценить тенденции фондового рынка в последующие десятилетия. Иногда сочетание байесовского и частотного методов имеет большой смысл.

Вы были предупреждены

Людям гораздо легче ошибиться, чем сделать осмысленный вывод. Вы должны быть очень осторожны и скептичны, особенно когда результат выглядит так хорошо.

Предположения моделирования легко нарушаются. Для проверки гипотезы, если мы не можем отвергнуть нулевую гипотезу, это не обязательно означает, что нулевая гипотеза верна. Это может быть из-за того, что у нас недостаточно данных, т.е. тест имеет низкую мощность.

Если мы хотим интерпретировать наши результаты как причинно-следственные связи, мы должны доказать, что изменения в X не зависят от других. Однако коллинеарность и пропущенная переменная систематическая ошибка могут нарушить это предположение. Таким образом, мы должны провести рандомизированные эксперименты с X и наблюдать за эффектом на Y.

Представьте, что мы запускаем линейную регрессию со 100 ковариатами и выбираем 5 лучших ковариат с самыми низкими p-значениями. Это неверный результат, потому что мы уже сгенерировали 5% ложных срабатываний со значимостью 0,05. Это ловушка чрезмерной интерпретации проверки множественных гипотез. Коррекция Бонферрони помогает решить проблему, используя значимость 0,05/[#covariates].

Наконец, вы можете применить множество процедур к своим данным, чтобы найти модель, которая вам нравится больше всего, и получить довольно хорошее значение p. Но процесс выбора модели заставляет вас предвзято относиться к p-значениям. Вы «взломали» p-значения. И мы называем это выводом предварительного выбора. Чтобы избежать этого, вы либо принимаете во внимание предвзятость при оценке результатов, либо проверяете ее на свежих новых данных.

Причинный вывод

Ассоциация не означает причинно-следственную связь, потому что вы не можете увидеть, что произошло бы, если бы было применено альтернативное действие. Невидимая информация о каждом человеке является контрфактической.

Модель потенциальных результатов — это способ формального осмысления контрфактических выводов и причинно-следственных связей. Для каждого действия, лечения или контроля у вас есть два возможных результата. Причинный эффект действия представляет собой разницу между двумя потенциальными исходами:

Причинный эффект = результат (лечение) - результат (контроль)

Фундаментальная проблема причинно-следственного вывода заключается в том, что мы видим только один из возможных результатов в каждой выборке. Остальные половины отсутствуют. Чтобы решить проблему, мы можем оценить средний эффект лечения (ATE) в популяции, когда количество выборок велико:

ATE ~ E[Результат(Лечение)|Лечение] - E[Результат(Контроль)|Контроль]

Вышеприведенное соотношение сохраняется, когда нет предвзятости выбора, т. е. назначение не должно влиять на ожидание результата. Вот почему рандомизированные эксперименты являются золотыми стандартами. Они устраняют предвзятость выбора.

Одним из подходов к анализу рандомизированного эксперимента является проверка гипотез. Поскольку выборочное распределение ATE приблизительно нормальное, вы можете вычислить среднее значение и стандартную ошибку генеральной совокупности, а также найти доверительные интервалы и p-значения.

Другой подход заключается в использовании линейного регрессионного анализа. Рассмотрим следующее:

Результат = a + b * Назначение (лечение = 1, контроль = 0)

Поскольку B — результат контроля, B+W — результат лечения, мы сразу знаем, что W — это оценка ATE.

Разработайте эксперимент

Эксперимент должен сбалансировать две основные цели:

  • Контроль ложных отрицательных результатов, т.е. высокая мощность
  • Контроль ложных срабатываний, т.е. небольшой размер

Вам нужно взять на себя три обязательства:

  • Установите уровень ложных срабатываний, который вы готовы принять (α = 5%).
  • Добейтесь наименьшего ATE, который вы можете обнаружить, то есть минимального обнаруживаемого эффекта (MDE).
  • Придерживайтесь требуемой мощности в MDE (β=80%)

С α, β и MDE вы можете использовать калькулятор для определения размера выборки. Приблизительная оценка следующая:

n ~ SE²/MDE²

Подробнее о причинно-следственных связях

В предыдущем обсуждении мы предполагаем, что причинный эффект связан только с назначением (лечением или контролем). Однако на результат могут влиять и другие ковариаты. Чтобы улучшить оценку и уменьшить систематическую ошибку выборки, нам необходимо контролировать наблюдаемые ковариаты. По сути, мы добавляем их в нашу модель:

Результат = a+ b * X + c * Назначение

Идя дальше, эффект лечения может зависеть от этих ковариат, а это означает, что нам нужно добавить в модель термин взаимодействия Assignment * X.

Одной из проблем причинно-следственного вывода является интерференция между лечением и контролем. Это означает, что назначение лечения влияет на контрольную особь, так как лечение «каннибализирует» контрольную.

Еще одна проблема — парадокс Симпсона. Например, на каждом факультете соотношение женщин и мужчин в университете А выше, чем в университете Б, но общее соотношение в университете А ниже, чем в университете Б.

Это нетрудно понять. Представьте, что у вас есть две линии, каждая из которых состоит из двух секций. Для каждого участка линия А имеет больший наклон, чем линия В, но наклон линии А меньше, чем линия В, поскольку длина каждого участка может быть разной. Это просто пример смещения выборки.

Иногда мы не можем проводить рандомизированный эксперимент, а проводим «естественный эксперимент» на исторических данных. Чтобы устранить систематическую ошибку выборки, нам нужны некоторые методы, такие как анализ разрывов регрессии, сопоставление показателей склонности и инструментальные переменные.

Эта заметка основана на оригинальном содержании общедоступных материалов курса «Малые данные», который читал профессор Джохари в Стэнфорде.