Новые взгляды на статистические распределения и модели смесей

В этой статье о данных упор делается на науку, а не только на данные. Современный материал представлен на простом английском языке с разных точек зрения: приложения, теоретические исследования, задающие больше вопросов, чем дают ответов, научные вычисления, машинное обучение и алгоритмы. Я пытаюсь здесь заложить основы новой статистической технологии, надеясь, что она посеет семена для дальнейших исследований по теме с широким спектром потенциальных применений. Смеси давно изучаются и используются в приложениях, в том числе и мной при работе над кандидатской диссертацией. 25 лет назад, а она до сих пор является предметом активных исследований. Тем не менее, вы найдете здесь много нового материала.

Введение и контекст

В предыдущей статье (см. здесь) я попытался аппроксимировать случайную величину, представляющую реальные данные, взвешенной суммой простых ядер, таких как равномерно и независимо, одинаково распределенные случайные величины. Цель состояла в том, чтобы построить аппроксимации ряда Тейлора для более сложных моделей (каждый член в ряду является случайной величиной), чтобы

избегать чрезмерной подгонки,
аппроксимировать любое эмпирическое распределение (обратное функции процентилей), связанное с реальными данными,
легко вычислять доверительные интервалы на основе данных независимо от базового распределения,
проводить простые проверки гипотез,
выполнить редукцию модели,
оптимизировать бинирование данных, чтобы облегчить выбор функций и улучшить визуализацию гистограмм
создавать идеальные гистограммы,
построить простые оценщики плотности,
выполнять интерполяции, экстраполяции или прогнозную аналитику
выполнить кластеризацию и определить количество кластеров.

Почему я обнаружил очень интересные свойства стабильных распределений во время этого исследовательского проекта, я не мог придумать решение для решения всех этих проблем. Дело в том, что эти взвешенные суммы обычно сходились (в распределении) к нормальному распределению, если веса не убывали слишком быстро — следствие центральной предельной теоремы. И даже если использовать однородные ядра (в отличие от гауссовских) с быстро убывающими весами, оно будет сходиться к почти симметричному, гауссовскому распределению. Короче говоря, очень немногие наборы реальных данных могут быть аппроксимированы с помощью модели такого типа.

Я также пытался использовать независимое, но НЕ идентично распределенное ядро, и снова не смог добиться никакого прогресса. Под «неодинаково распределенными ядрами» я подразумеваю базовые случайные величины из одного семейства, скажем, с равномерным или гауссовским распределением, но с параметрами (среднее значение и дисперсия), которые различны для каждого члена взвешенной суммы. Причина в том, что суммы гауссовых, даже с другими параметрами, по-прежнему остаются гауссовыми, и суммы униформных тоже становятся гауссовыми, если только веса не убывают достаточно быстро. Подробности о том, почему это происходит, приведены в последнем разделе.

Теперь в этой статье, начиная со следующего раздела, я предлагаю полное решение, используя смеси, а не суммы. Возможности безграничны.

Содержание этой статьи

1. Введение и контекст

2. Аппроксимации с использованием смешанных моделей

Срок ошибки
Ядра и параметры модели
Алгоритмы поиска оптимальных параметров
Сходимость и единственность решения
Найдите почти оптимум с помощью быстрого пошагового алгоритма черного ящика

3. Пример

Данные и исходный код
Результаты

4. Приложения

Оптимальный биннинг
Предиктивная аналитика
Проверка гипотезы и доверительные интервалы
Кластеризация

5. Интересные задачи

Смеси Гаусса однозначно характеризуют широкий класс распределений.
Взвешенные суммы не достигают того, что делают смешанные модели
Стабильные смеси
Корреляции

Полностью статью читать здесь.

Новые взгляды на статистические распределения и модели смесей — с широким спектром…

Вопросы по теме