В этой статье о данных упор делается на науку, а не только на данные. Современный материал представлен на простом английском языке с разных точек зрения: приложения, теоретические исследования, задающие больше вопросов, чем дают ответов, научные вычисления, машинное обучение и алгоритмы. Я пытаюсь здесь заложить основы новой статистической технологии, надеясь, что она посеет семена для дальнейших исследований по теме с широким спектром потенциальных применений. Смеси давно изучаются и используются в приложениях, в том числе и мной при работе над кандидатской диссертацией. 25 лет назад, а она до сих пор является предметом активных исследований. Тем не менее, вы найдете здесь много нового материала.
Введение и контекст
В предыдущей статье (см. здесь) я попытался аппроксимировать случайную величину, представляющую реальные данные, взвешенной суммой простых ядер, таких как равномерно и независимо, одинаково распределенные случайные величины. Цель состояла в том, чтобы построить аппроксимации ряда Тейлора для более сложных моделей (каждый член в ряду является случайной величиной), чтобы
- избегать чрезмерной подгонки,
- аппроксимировать любое эмпирическое распределение (обратное функции процентилей), связанное с реальными данными,
- легко вычислять доверительные интервалы на основе данных независимо от базового распределения,
- проводить простые проверки гипотез,
- выполнить редукцию модели,
- оптимизировать бинирование данных, чтобы облегчить выбор функций и улучшить визуализацию гистограмм
- создавать идеальные гистограммы,
- построить простые оценщики плотности,
- выполнять интерполяции, экстраполяции или прогнозную аналитику
- выполнить кластеризацию и определить количество кластеров.
Почему я обнаружил очень интересные свойства стабильных распределений во время этого исследовательского проекта, я не мог придумать решение для решения всех этих проблем. Дело в том, что эти взвешенные суммы обычно сходились (в распределении) к нормальному распределению, если веса не убывали слишком быстро — следствие центральной предельной теоремы. И даже если использовать однородные ядра (в отличие от гауссовских) с быстро убывающими весами, оно будет сходиться к почти симметричному, гауссовскому распределению. Короче говоря, очень немногие наборы реальных данных могут быть аппроксимированы с помощью модели такого типа.
Я также пытался использовать независимое, но НЕ идентично распределенное ядро, и снова не смог добиться никакого прогресса. Под «неодинаково распределенными ядрами» я подразумеваю базовые случайные величины из одного семейства, скажем, с равномерным или гауссовским распределением, но с параметрами (среднее значение и дисперсия), которые различны для каждого члена взвешенной суммы. Причина в том, что суммы гауссовых, даже с другими параметрами, по-прежнему остаются гауссовыми, и суммы униформных тоже становятся гауссовыми, если только веса не убывают достаточно быстро. Подробности о том, почему это происходит, приведены в последнем разделе.
Теперь в этой статье, начиная со следующего раздела, я предлагаю полное решение, используя смеси, а не суммы. Возможности безграничны.
Содержание этой статьи
1. Введение и контекст
2. Аппроксимации с использованием смешанных моделей
- Срок ошибки
- Ядра и параметры модели
- Алгоритмы поиска оптимальных параметров
- Сходимость и единственность решения
- Найдите почти оптимум с помощью быстрого пошагового алгоритма черного ящика
3. Пример
- Данные и исходный код
- Результаты
4. Приложения
- Оптимальный биннинг
- Предиктивная аналитика
- Проверка гипотезы и доверительные интервалы
- Кластеризация
5. Интересные задачи
- Смеси Гаусса однозначно характеризуют широкий класс распределений.
- Взвешенные суммы не достигают того, что делают смешанные модели
- Стабильные смеси
- Корреляции
Полностью статью читать здесь.