Перспективы науки о данных в средних и связанных областях

Дополнительные знания помогут вам использовать эти инструменты более эффективно

Авторы Ziqi Ma, Ivan Barrientos, Shijing Fang, Laurent Boué и Екатерина Лажинцева.

Специалисты по обработке данных привыкли получать новые идеи на основе данных, используя различные аналитические инструменты, модели машинного обучения и статистические методы. Но также возможно получить новое представление о самих инструментах, что позволяет глубже понять, как они работают и на что следует обращать внимание при их использовании. В своей статье Ни один покупатель не является средним Рон Сиелински пишет, что средние значения иногда могут скрывать больше, чем раскрывать. Но они остаются полезными, особенно если рассматривать их в свете смежных вопросов.

В этой статье мы исследуем несколько тем, связанных со средними значениями. Наша цель - помочь вам глубже понять средние значения, их ограничения и некоторые связанные концепции. Мы начинаем с исследования центральной предельной теоремы, конструируем репрезентативные подмножества, рассматриваем выбросы, исследуем пределы описания распределений и заканчиваем изучением байесовской модели.

Понимание центральной предельной теоремы

Представьте, что вы начали подбрасывать монетку. Вы переворачиваете его шесть раз и получаете четыре решки и две решки. Вы переверните его еще шесть раз, и вы получите две решки и четыре решки. Вы перевернете его еще шесть раз, и у вас будет только одна решка и пять решек. Если вы продолжите подбрасывать монету таким образом и усреднить результаты каждой серии из шести подбрасываний монеты, вы обнаружите, что результат имеет тенденцию приближаться к трем орлам и трем решкам.

Это пример центральной предельной теоремы (CLT), которая представляет собой утверждение о том, как ведет себя среднее значение выборок по мере добавления большего количества выборок. В этом случае выполнения нескольких наборов из шести подбрасываний монеты, так как результаты в среднем составляют три орла и три решки, говорят, что они нормально распределены. Это означает, что в этом особом случае нашей подброшенной монеты, хотя иногда мы получаем шесть последовательных орлов (или шесть последовательных решек), такие результаты встречаются реже, чем те случаи, когда мы получаем что-то ближе к трем орлам и трем решкам. Если бы мы изобразили эти результаты на графике, он выглядел бы как колоколообразная кривая, с наиболее частыми результатами в верхней части колокола (т. Е. С результатами, близкими к трем орлам и трем решкам), а с более редкими результатами к вершине колокола. нижние края раструба (т.е. результаты, близкие к шести орлам или шести решкам).

Иногда CLT неправильно называют гарантией того, что если вы выберете достаточно данных - результаты последовательных наборов из шести подбрасываний монеты в нашем примере или ваши собственные данные - данные можно предположить как нормально распределены, и в результате его среднее значение будет таким же значимым, как и то, что мы получаем от наших наборов подбрасываний монеты. Однако на самом деле это не так. Скорее, когда вы усредняете больше данных, это процесс усреднения, а не сами данные, которые обычно распределяются относительно истинного (асимптотического) среднего.

Итак, если CLT не помогает нам так, как мы могли бы надеяться, то как это поможет нам? CLT по-прежнему может быть полезен, потому что дает нам возможность задавать важные вопросы, например: «Сколько данных мне нужно, чтобы получить точную оценку его истинного среднего значения?» пока мы принимаем во внимание некоторые вещи.

Колоколообразное распределение, которое мы обсуждали выше, например, не единственно возможное. (Мягкая) форма CLT предполагает, что ваши данные имеют как конечное среднее (среднее, которое мы обсуждали), так и дисперсию. Однако не каждое распределение имеет конечное среднее значение и дисперсию. Часто встречающееся распределение, которое имеет конечное среднее, но не конечную дисперсию, известно как распределение Коши. Другое, известное как распределение Парето, может иметь как нефинитное среднее, так и нефинитную дисперсию! В результате важно понимать фактическое распределение ваших данных, а не просто предполагать, что они распределены нормально. В противном случае ваши результаты могут быть недействительными. Это еще одна причина сделать исследовательский анализ данных (EDA) одним из ваших первых шагов, потому что он покажет, как ваши данные распределяются среди других атрибутов.

Итак, мы увидели, что CLT идентифицирует единственное (асимптотическое) среднее, но такая идентификация может оказаться бесполезной, если распределение является «бимодальным», как показано на нашем примере с подбрасыванием монеты. Вернемся к этому примеру более подробно. Если монета подброшена, и результат - орел, запишите +1, а если решка, запишите –1. Закон больших чисел, который применяется, если мы продолжаем подбрасывать монету и записывать результаты, гласит, что среднее значение, которое мы получаем, равно нулю. Однако обратите внимание, что ничего, что вы фактически записали при каждом подбрасывании монеты, никогда не бывает нулевым: это либо +1, либо –1.

Это может не быть проблемой, если мы хотим применить CLT, чтобы увидеть, насколько среднее значение последовательности подбрасываний монеты отличается от нуля. В реальном сценарии это также может помочь нам количественно оценить, насколько справедлива монета, скажем, с помощью доверительных интервалов. Но теперь предположим, что вместо +1 и –1 мы заменили эти значения на +1000 и –1000. Среднее значение по-прежнему равно нулю, и CLT по-прежнему применяется, но насколько полезен CLT сейчас? Мы все еще можем применять доверительные интервалы, но они могут быть неинформативными, потому что дисперсия теперь значительно выше, чем в нашей первоначальной модели +/– 1.

Это одна из причин, по которой важно не слишком полагаться на средние значения и иметь в своем распоряжении методы, которые помогают нам лучше понимать данные, выходящие за рамки простого среднего. Теперь перейдем к демонстрации некоторых из этих приемов.

Использование (умного) подмножества: «основной набор»

В эпоху больших данных, когда у нас больше данных, чем мы можем проанализировать в режиме реального времени, имеет смысл сосредоточиться на их подмножестве или базовом наборе. Чтобы помочь разобраться в базовых наборах, давайте вернемся к нашему примеру с подбрасыванием монеты.

Подбрасывание монеты - простой пример того, когда достаточно иметь некоторую сводную статистику или простую модель, содержащую хорошее предварительное знание данных. Однако рассмотрим более сложный сценарий, в котором подбрасывание монеты нечестно (т. Е. Монета чаще всего падает либо орлом, либо решкой, а не каждую из них примерно в половине случаев). Учтите также, что не только подбрасывание монеты несправедливо, но и то, что их несправедливость является некоторой функцией неизвестной нам погоды.

Скажем, в качестве хобби я каждый день подбрасываю монетку (зная, что это несправедливо) и записываю результаты, а также показатели, связанные с погодой, такие как температура, влажность и уровень УФ-излучения. По прошествии более года я получил много данных. Но в этом случае, вместо того, чтобы работать со сводной статистикой или некоторым параметрическим распределением собранных мной данных, возможно, хорошей альтернативой является получение репрезентативного подмножества этих флип-записей - например, 30 «репрезентативных» дней - и разработка некоторых интеллектуальные веса важности для каждой из 30 записей, так что это подмножество может быть хорошим и кратким представлением общих данных. Это небольшое взвешенное подмножество называется coreset.

Понятие coreset происходит из вычислительной геометрии. Coreset становится все более актуальным сегодня, поскольку объем данных продолжает расти. С одной стороны, большие данные служат источником лучших моделей и лучшего понимания. С другой стороны, мы не всегда хотим ждать часами при повторении идей (помимо затрат на вычисления, которые являются не только деньгами, но и энергией). Таким образом, естественно желать краткого и легкого резюме набора данных, которое позволяет быстро исследовать и экспериментировать.

Это может звучать противоречиво: разве нам не всегда нужны более обширные и богатые данные, чтобы получать полезные сведения и строить хорошие модели? Это именно то, что делает проблему построения базового набора нетривиальной, потому что мы должны выбрать и взвесить базовый набор достаточно хорошо, чтобы мы сохранили богатство исходного набора данных, сохраняя при этом быстрые и дешевые вычисления (именно поэтому мы в первую очередь создаем базовый набор. ).

Как мы формализуем определение coreset и как его построить? Одно из математических определений состоит в том, что в отношении некоторого класса модели взвешенные потери на coreset близко аппроксимируют (эпсилон-близко) потери на полном наборе данных (для получения дополнительной информации см. Практические конструкции Coreset для машинного обучения » ). Построение базового набора остается областью активных исследований: несколько изучаемых методов основаны на выборке по важности - приписывание более высокой вероятности выборки важным экземплярам и их занижение, если они включены в базовый набор. Это снижает дисперсию, оставаясь беспристрастным.

Это требует формального определения понятия «важный», которое сильно зависит от задачи. Например, когда мы группируем или сегментируем клиентов, мы можем назвать относительно редкий класс клиентов с высокими расходами «важным». Однако для задачи классификации «важны» граничные точки. Во временном ряду «важные» точки могут быть точками перегиба.

Математически это указывает на то, что важность должна быть связана с потерями, потому что это цель оптимизации, на которой основано определение coreset. Точное определение этого отношения - задача разработчика алгоритма: определение может быть прямо пропорциональным (для получения дополнительной информации см. Подвыборка, пропорциональная потерям для последующего ERM), или оно может быть основано на чувствительности (т. Е. Наихудшее - влияние случая на потерю данной точки данных; для получения дополнительной информации см. Практические конструкции Coreset для машинного обучения). Независимо от выбранного пути важно найти хороший баланс между правильным представлением важных данных и сохранением достоверной общей сводки исходных данных.

Принимая во внимание выбросы и выигрыш

С практической точки зрения важно учитывать выбросы. С математической точки зрения невозможно различить необычный важный клиент и выброс, который следует отбросить. Но с точки зрения бизнеса это важное различие, и именно здесь проявляется победоносность: Преобразование статистики путем ограничения экстремальных значений в статистических данных для уменьшения влияния возможных ложных выбросов (как написано в Википедии) ).

Первый вопрос - как определить выбросы. Не существует стандартного или строгого определения; они обычно рассматриваются как наблюдения, которые сильно отличаются от других наблюдений. В зависимости от характера ваших данных выбросами могут быть законные наблюдения, например несколько богатых домохозяйств, или ошибки в ваших данных, например веб-сеанс продолжительностью 36 часов.

В зависимости от ваших знаний о ваших данных и цели анализа вы можете решить обрезать некоторые данные - например, полностью удалив экстремальные наблюдения - или победив их, что означает их замену таким образом. они по-прежнему достаточно высоки, но не слишком искажают ваши данные. Специалист по анализу данных вынужден решать, стоит ли ему выигрывать или урезать. Однако для любого подхода необходимо определить порог; например, с помощью метода IQR с порогом в семьдесят пятом процентиле + межквартильный размах * 1,5 или в девяностом процентиле. (Обратите внимание, что при использовании девяностого процентиля всегда необходимо выигрывать или обрезать ваши данные. Если используется метод IQR, возможно, нет необходимости в выигрыше.)

Винсоризация часто используется для работы с выбросами в диаграммах или кластеризацией. Для диаграмм, которые не читаются из-за выбросов, использование значений с минимальной оценкой - например, выровненных по линии девяностого перцентиля - обеспечивает лучшую картину. Или, если вы выполняете кластеризацию k -средств и хотите избежать кластера только с экстремально высокими значениями, но допустимо группировать вместе «достаточно высокие» значения, то выигрышизация также полезна.

Также полезно рассмотреть пару открытых вопросов относительно выигрыша:

Допустимо ли выигрывать только с одной стороны спектра ваших данных, или, если вы проводите выигрыш по девяностому процентилю, следует ли вам также делать десятый процентиль? Ответ зависит от цели вашей работы и ваших данных и является требованием суждения.
Допустимо ли использовать выигрышные значения в регрессионных моделях или лучше использовать другие преобразования, например, логарифмические? Стоит попробовать различные преобразования и оценить разницу, которую они вносят в вашу модель.

Описание распределения: как далеко мы можем зайти теоретически?

Как мы видели, полезно собирать информацию о распределении с помощью нескольких описательных статистических данных. Центральную предельную теорему можно рассматривать как способ представления набора данных с использованием только двух параметров. Учет большего количества параметров обеспечивает еще большую свободу для представления более сложных структур, таких как асимметрия и моменты распределения данных более высокого порядка. Но при моделировании набора данных с использованием параметрической модели есть компромисс, который удачно выражен бритвой Оккама: мы не хотим ненужной сложности.

Концептуально любой набор данных можно охарактеризовать своей теоретической минимальной длиной описания (колмогоровская сложность), которая на высоком уровне описывает, сколько бит информации определяет набор данных. Статистическое обучение - это поиск закономерностей, позволяющих описать набор данных с помощью меньшего количества бит. Практики машинного обучения постоянно стремятся найти баланс между сложностью модели (большее количество параметров означает больше степеней свободы) и обучением (меньшее количество параметров приводит к более простой модели).

На практике такие различия могут быть довольно тонкими. Например, представление параметров в виде чисел с плавающей запятой различной точности приводит к новому компромиссу между сложностью вычислений и возможностью обобщения параметрических моделей. Это тема активных исследований. В крайнем случае можно определить класс однопараметрических моделей, которые могут идеально представить любой набор данных, но это не будет распространяться на какой-либо существующий набор данных.

Иногда наборы данных настолько просты, что достаточно первых нескольких моментов, таких как среднее значение с плавающей запятой, дисперсия, асимметрия, эксцесс и т. Д. В других случаях необходимы более сложные альтернативы, такие как чрезмерно параметризованные архитектуры глубокого обучения, которые могут извлекать важные особенности набора данных, даже если лежащий в основе механизм обучения все еще не полностью понят.

Использование предшествующих знаний о данных: байесовская структура

Снова обращаясь к примеру с подбрасыванием монеты, предположим, что мы пытаемся найти сколько раз выпадает орел, когда мы подбрасываем монету шесть раз. Один из способов приблизиться к этому, основанный на CLT, состоит в том, чтобы выбрать достаточное количество раз события (одно событие означает подбрасывание монеты шесть раз), нарисовать распределение выборочного среднего (предполагая нормальное распределение), а затем выбрать одно значение ( точечная оценка), известная как оценка максимального правдоподобия (MLE), для представления наилучшего предположения истинного среднего. Но каким бы очевидным это ни казалось, этот тип частотного подхода может помешать нашей способности интерпретировать данные полезным и достоверным образом. Например, необходимо ввести доверительные интервалы, чтобы продемонстрировать, в какой степени точечные оценки, составляющие среднее (истинное среднее), являются хорошими или плохими.

Напротив, байесовский подход, основанный на правиле Байеса (формула ниже), является более естественным подходом к статистическим выводам, приводящим к значимым результатам в отношении наших данных. Байесовский подход фокусируется на распределениях случайных величин. Подбрасывание монеты является бинарным, поэтому мы выбрали распределение Бернулли в качестве распределения этого события. Каждый раз, когда мы собираем новые данные, наряду с нашим предыдущим обучением, мы затем устанавливаем новое понимание распределения вероятностей истинного значения (выпадение голов в событии). Проще говоря, частотный подход дает точечные оценки, тогда как байесовская статистика дает распределения.

Это дает нам заметные преимущества. Во-первых, мы можем спросить: «Какова вероятность того, что показатель A лучше, чем показатель B?» Давайте подробнее рассмотрим правило Байеса, p (θ | X) = p ( X | θ) p (θ) / p (X ). Это отражает байесовское утверждение, что истинное среднее, p (θ | X), может быть обновлено на основе распределения и вероятности, взятой из предыдущее обучение, p (θ), и текущее наблюдение, p (X | θ ), которую также называют «вероятностью».

Термин p (X) - это предельная вероятность данных (называемая свидетельством). Он вычисляется как сумма (дискретная) или интегральная (непрерывная) всех условных вероятностей X при всех возможных событиях. Принимая доказательства как непрерывные (p (X) = ∫ p (X | θ ) p (θ) d) и применяя его к приведенному выше уравнению правила Байеса, свидетельство действует как нормализующая константа, которая только изменяет масштаб апостериорной плотности. В результате апостериорная может быть выражена как пропорциональность вероятности (а именно, p (X | θ), умноженной автор: p (θ), приор). Обычно мы придерживаемся определенного набора распределений (таких как Гауссово, Бернулли, биномиальное и Пуассоновское) и используем сопряженные распределения, которые говорят, что если мы выберем правильные вероятность и «предшествующий, то апостериорный и предшествующий имеют одинаковое распределение. В результате нам не нужно подсчитывать доказательства. Нам просто нужно обнаружить коэффициент масштабирования, который использует отношения распределения.

На практике мы можем найти распределения, подходящие как для наших данных, так и для наших априорных значений. Для дискретных переменных, таких как двоичные события перехода по кликам, конверсия или отток, мы можем использовать распределение Бернулли. Такие показатели, как использование, доход или время, проведенное на странице, являются непрерывными переменными, и мы можем моделировать их с помощью семейства бета-распределения. Гауссово (нормальное) распределение по своей природе повсеместно, но, как мы видели ранее, оно не всегда может лучше всего подходить для данных. В качестве альтернативы можно использовать гамма-распределение для искаженных показателей, таких как выручка.

Все это говорит о том, что мы можем использовать байесовские методы для итеративного обновления среднего значения по мере продолжения сбора данных. Но мы также можем сравнить распределение двух или более групп. Таким образом, вместо того, чтобы говорить, что один лучше другого, мы можем использовать вероятность того, что один лучше другого.

Заключение

Средние показатели - это нечто большее, чем может показаться на первый взгляд. Правильное использование средних значений означает понимание основного распределения задействованных данных, и, как мы видели, рассмотрение распределения данных нетривиально: существует теоретический вопрос о том, «сколько информации мы можем захватить», и практическое значение « какая информация важна для анализа ». В этой статье мы исследовали несколько областей, полезных для решения этого вопроса, но не для того, чтобы предложить окончательное решение, а для того, чтобы поделиться некоторыми взглядами и теоретическими или практическими соображениями относительно средних значений и связанных областей.