В этой статье о данных упор делается на науку, а не только на данные. Современный материал представлен на простом английском языке с разных точек зрения: приложения, теоретические исследования, задающие больше вопросов, чем дают ответов, научные вычисления, машинное обучение и алгоритмы. Я пытаюсь здесь заложить основы новой статистической технологии, надеясь, что она посеет семена для дальнейших исследований по теме с широким спектром потенциальных применений. Смеси давно изучаются и используются в приложениях, в том числе и мной при работе над кандидатской диссертацией. 25 лет назад, а она до сих пор является предметом активных исследований. Тем не менее, вы найдете здесь много нового материала.

Введение и контекст

В предыдущей статье (см. здесь) я попытался аппроксимировать случайную величину, представляющую реальные данные, взвешенной суммой простых ядер, таких как равномерно и независимо, одинаково распределенные случайные величины. Цель состояла в том, чтобы построить аппроксимации ряда Тейлора для более сложных моделей (каждый член в ряду является случайной величиной), чтобы

  • избегать чрезмерной подгонки,
  • аппроксимировать любое эмпирическое распределение (обратное функции процентилей), связанное с реальными данными,
  • легко вычислять доверительные интервалы на основе данных независимо от базового распределения,
  • проводить простые проверки гипотез,
  • выполнить редукцию модели,
  • оптимизировать бинирование данных, чтобы облегчить выбор функций и улучшить визуализацию гистограмм
  • создавать идеальные гистограммы,
  • построить простые оценщики плотности,
  • выполнять интерполяции, экстраполяции или прогнозную аналитику
  • выполнить кластеризацию и определить количество кластеров.

Почему я обнаружил очень интересные свойства стабильных распределений во время этого исследовательского проекта, я не мог придумать решение для решения всех этих проблем. Дело в том, что эти взвешенные суммы обычно сходились (в распределении) к нормальному распределению, если веса не убывали слишком быстро — следствие центральной предельной теоремы. И даже если использовать однородные ядра (в отличие от гауссовских) с быстро убывающими весами, оно будет сходиться к почти симметричному, гауссовскому распределению. Короче говоря, очень немногие наборы реальных данных могут быть аппроксимированы с помощью модели такого типа.

Я также пытался использовать независимое, но НЕ идентично распределенное ядро, и снова не смог добиться никакого прогресса. Под «неодинаково распределенными ядрами» я подразумеваю базовые случайные величины из одного семейства, скажем, с равномерным или гауссовским распределением, но с параметрами (среднее значение и дисперсия), которые различны для каждого члена взвешенной суммы. Причина в том, что суммы гауссовых, даже с другими параметрами, по-прежнему остаются гауссовыми, и суммы униформных тоже становятся гауссовыми, если только веса не убывают достаточно быстро. Подробности о том, почему это происходит, приведены в последнем разделе.

Теперь в этой статье, начиная со следующего раздела, я предлагаю полное решение, используя смеси, а не суммы. Возможности безграничны.

Содержание этой статьи

1. Введение и контекст

2. Аппроксимации с использованием смешанных моделей

  • Срок ошибки
  • Ядра и параметры модели
  • Алгоритмы поиска оптимальных параметров
  • Сходимость и единственность решения
  • Найдите почти оптимум с помощью быстрого пошагового алгоритма черного ящика

3. Пример

  • Данные и исходный код
  • Результаты

4. Приложения

  • Оптимальный биннинг
  • Предиктивная аналитика
  • Проверка гипотезы и доверительные интервалы
  • Кластеризация

5. Интересные задачи

  • Смеси Гаусса однозначно характеризуют широкий класс распределений.
  • Взвешенные суммы не достигают того, что делают смешанные модели
  • Стабильные смеси
  • Корреляции

Полностью статью читать здесь.