[Обзор статьи] Статистическое моделирование : две культуры , Лео Брейман

Моя команда рассматривает «Paper Review» как проект по развитию компетенций. Итак, каждую неделю я буду загружать на Medium хотя бы один обзор статьи, название которого начинается с «[Обзор статьи]».

Форма будет выглядеть следующим образом:

Название доклада
Автор
Публикация
Цитирование
Предлагаемый
Анализ
Просмотреть
Ссылки

Название доклада | Статистическое моделирование: две культуры

Автор | Лео Брейман (статистик Калифорнийского университета в Беркли)

Публикация | Институт математической статистики

Цитирование | 4874 (Гугл)

«Статистическое моделирование: две культуры» — это книга, написанная Лео Брейманом, статистиком и ученым-компьютерщиком, в которой он утверждает, что в статистическом моделировании есть две культуры: одна делает акцент на использовании сложных математических методов, а другая — на использовании сложных математических методов. простых интерпретируемых моделей. Книга представляет собой сборник эссе и статей Бреймана по этому вопросу, в которых он утверждает, что вторая культура, которая делает упор на использование простых моделей, более эффективна и должна уделять больше внимания статистикам и специалистам по данным. Книга считается классикой в области статистики и машинного обучения.

Предложено | Он вводит две позиции по моделированию. В обеих позициях автор испытывает и объясняет недостатки вероятностной статистической модели и преимущества модели машинного обучения по сравнению с ней.

Анализ | Автор делит реальные данные на вероятностные модели или алгоритмические модели.

Вышеупомянутая вставка посвящена вероятностным моделям, включая линейную регрессию, логистическую регрессию, модель Кокса и т. д. Нижняя вставка посвящена моделям алгоритмов, которые содержат решение и нейронные сети, которые внутри коробки считаются сложными и неизвестными.

Проблемы в моделировании текущих данных

Во-первых, мы проводим проверку модели с помощью проверки соответствия и остаточной проверки, а во втором - с помощью прогностической точности. Критерии согласия имеют очень небольшую мощность, если точно не указано направление альтернативы. Подразумевается, что комплексные тесты на соответствие, которые проверяют одновременно по многим направлениям, имеют небольшую мощность и не будут отклонены до тех пор, пока несоответствие не станет экстремальным.

«Модель линейной регрессии привела ко многим ошибочным выводам, которые появлялись в журнальных статьях, размахивая 5% уровнем значимости, не зная, соответствует ли модель данным».

«Если у человека есть только молоток, то любая проблема выглядит как гвоздь».

Множественность моделей данных

Самый большой плюс моделирования данных — создание простой и понятной картины взаимосвязи между входными переменными и откликом. Причина Множественности заключается в недостатке силы доброй воли, остаточного анализа.

В текущих опубликованных приложениях появляются более сложные модели данных. Байесовские методы в сочетании с марковской цепью Монте-Карло появляются повсюду. Это может означать, что по мере того, как данные становятся более сложными, модели данных становятся более громоздкими и теряют преимущество представления простой и ясной картины природного механизма.

Алгоритмическое моделирование

Алгоритмические модели делают такое предположение, что Природа создает данные в черном ящике, внутренности которого сложны, загадочны и частично непознаваемы, что данные извлекаются с идентификацией из неизвестного многомерного распределения.

Расёмон и множественность хороших моделей (эффект Расёмона)

Эффект Расёмона относится к неспособности подозреваемых решить дело, занимая разные позиции по одному делу. В этой статье он относится к разным моделям с одинаковыми коэффициентами ошибок.

Близкие друг к другу с точки зрения ошибки и далекие с точки зрения формы модели

Небольшое возмущение или удаление неважных переменных
Агрегирование большого набора конкурирующих моделей может быть решением.

Оккам и простота против точности

Это означает, что если у вас есть тот же эффект, менее сложная модель является хорошей моделью. Однако автор говорит, что точность и простота противоречат друг другу, поэтому приоритет простоты может снизить точность модели.

Растущие леса для прогнозирования

Среди проектов автора приведен пример моделирования времени судебного приговора с помощью простой древовидной модели.
При рассмотрении модели интерпретируемость была хорошей, но точность предсказания была плохой. В качестве меры была предложена методика Фореста. Упоминается, что создание леса для слегка модифицированной обучающей выборки и ее сборка могут повысить точность предсказания модели.

Растущий лес за счет возмущения обучающей выборки
Выращивание дерева на возмущенном тренировочном наборе, повторное возмущение тренировочного набора, выращивание другого дерева
бэггинг, выпуклость, дугообразование, аддитивная логистическая регрессия

Как видно из нижней таблицы, при использовании техники леса ошибка теста может быть уменьшена наполовину или на треть по сравнению с применением одного дерева. Итак, автор сказал: «Нам нужны сложные модели прогнозирования».

Беллман и проклятие размерности

Проклятие размерности заключается в том, что обучение затруднено, когда размерность данных увеличивается, поэтому оно опасно при анализе данных. Но автор считает это благом.

Уменьшение размерности эквивалентно уменьшению объема информации, доступной для прогнозирования. Вместо уменьшения размерности мы ограничиваем добавление функций, состоящих из предикторов.

Лес распознавания форм

Неглубокие деревья выращены
В каждом узле случайным образом выбираются 100 признаков из соответствующего уровня иерархии.
Найдено оптимальное разделение узла на основе выбранных признаков

Метод опорных векторов (SVM)

Оптимальный определяется как означающий, что расстояние от гиперплоскости до любого вектора предсказания максимально. Добавление функции, состоящей из предикторов, позволяет SVM хорошо работать в нескольких измерениях, повышает точность прогнозирования и снижает частоту ошибок.

Информация из черного ящика

Более высокая точность прогнозирования связана с более надежной информацией о базовом механизме данных.
Алгоритмические модели могут обеспечить более высокую точность прогнозирования, чем модели данных, и предоставить более полную информацию о лежащем в их основе механизме.

Сосредоточьтесь на решении проблемы, а не спрашивайте, какую модель данных они могут создать.

Обзор | Удивительно, что методы, предложенные автором в 2001 году, теперь имеют множество способов. Автор говорит не искать в конце концов откуда взялись данные, а попытаться найти методологию решения проблемы. Я согласен с этим, и следует приложить усилия для применения различных методов, не погружаясь в статистическую перспективу.

Ссылки.|

Брейман, Лео. «Статистическое моделирование: две культуры (с комментариями и ответом автора)». Статистическая наука 16.3 (2001): 199–231.

[Обзор статьи] Статистическое моделирование: две культуры (https://www.youtube.com/watch?v=lS6KqOqx6bc)