Это письменная версия моего выступления на конференции Software Guru’s DataDay 2017, оригинальные слайды (на испанском языке) можно найти здесь

Люди и неопределенность

С первых дней своего существования у людей были важные, часто антагонистические отношения с неопределенностью; мы пытаемся убить его везде, где находим. Без объяснения многих природных явлений люди изобрели богов, чтобы объяснить их, и, не имея уверенности в будущем, они консультировались с оракулами.

Роль оракула заключалась в том, чтобы уменьшить неуверенность своих собратьев, предсказывать их будущее и давать советы в соответствии с волей их богов, и хотя их точность оставляла желать лучшего, они считали, что любая мера уверенности лучше, чем никто.

По мере того, как общество становилось изощренным, оракулы были (не полностью) вытеснены эмпирической мыслью, которая оказалась гораздо более успешной в предсказаниях и советах. Сам эмпиризм превратился в набор техник, которые мы называем научным методом, который оказался гораздо более эффективным в уменьшении неопределенности и является наиболее надежным способом современного общества делать прогнозы. Статистика играет центральную роль в большей части науки, обеспечивая главный инструмент для измерения доказательств и оценки гипотез. (Хотя мейнстримный подход в этом отношении глубоко ошибочен).

В последнее время достижения как статистической, так и вычислительной теории и вычислительной мощности позволили анализировать огромные объемы данных, делая прогнозы и рекомендации возможными без необходимости в общей теории, даже заставив некоторых заявить, что научный метод устарел. Хотя я не согласен, мощь этого инструмента нельзя отрицать. Эта сила вместе со сложностью теории и практики, которая окружает эти инструменты, превратили тех, кто ею владеет, в современный эквивалент оракулов.

Но у инструментов есть ограничения, и их понимание имеет первостепенное значение для пользователей. В частности, я хотел бы поговорить об ограничениях двух самых популярных инструментов для работы с неопределенностью: Частотная статистика и контролируемое обучение.

Статистика Frequentist и ее ограничения

Частотность - это представление о том, что частоты приблизительно соответствуют вероятности. Многих из нас учат этому понятию в старшей школе: подбросить монету несколько раз, вычислить частоту выпадения орлов, сравнить с теоретической вероятностью выпадения орла для честной монеты и так далее. Следуя этой идее, вероятности определяются как предел частоты повторения «случайного эксперимента». Чем больше вы можете повторять это, тем лучше будет ваша вероятность. Набор методов, основанных на этой идее, с частым успехом используется в большей части науки.

Однако проблема с частотным определением вероятности состоит в том, что оно не может присвоить вероятность уникальным событиям, поскольку они не могут повторяться. Тем не менее, неформально люди присваивают такие вероятности, поэтому было бы желательно, чтобы статистическая теория могла иметь дело с ними. Фракционизм обходит это, размышляя о системе отсчета, то есть допуская, что похожие события, по крайней мере, приблизительно происходят из одного и того же случайного эксперимента (таким образом, частотник может ответить на вопрос о выборах, посмотрев на прошлые , аналогичные выборы). От теоретической строгости отказываются в пользу применимости.

Аналогичная проблема возникает, когда кто-то хочет подумать о вероятности неизвестной величины или истинности утверждения о прошлом или настоящем. Например, вероятность того, что гипотеза верна. Такую вероятность невозможно измерить с помощью частотной статистики, поэтому, когда задается вопрос (центральный в науке) «Насколько вероятно, что эта гипотеза верна с учетом этих данных?», теоретически оказывается очень слабым. используется метод: p-значение.

p-value можно (неточно) рассматривать как ответ на вопрос «Насколько вероятны будут данные, которые я собрал, учитывая, что моя гипотеза была ошибочной?», идея в том, что если он действительно маленький, то, возможно, гипотеза верна. Ясно, что это не одно и то же, но большинство пользователей p-value их приравнивают. Чтобы объяснить точную природу ошибки здесь, необходима важная теорема о вероятности, которую я скоро обсудю.

Контролируемое обучение и его ограничения

Можно выбрать другой подход, который практически ничего не предполагает о природе неопределенности и вероятности, а вместо этого сосредотачивает свои усилия на создании наилучшего возможного прогноза для данной задачи. Это основное внимание в контролируемом обучении (SL), типе машинного обучения (ML), которое фокусируется на прогнозировании переменной ответа y при заданном набор входных переменных (также известных как функции) x, наблюдаемых в наборе данных.

Математически алгоритмы SL пытаются оценить ожидаемое значение переменной отклика, заданное входными переменными, как функцию от них, путем корректировки параметров посредством наблюдения за этими переменными. Для выполнения этой задачи было разработано множество мощных методов, и нужно выбирать среди множества из них, среди прочего, в зависимости от природы переменных, размерности и сложности явлений, которые производят данные.

Поскольку они разработаны для решения этой проблемы, алгоритмы SL обычно не могут справиться с другими типами вопросов. Например, можно спросить, учитывая входные переменные, насколько вероятно, что ответ превысит заданный порог. Хотя на этот вопрос обычно можно ответить с помощью статистической модели, не в каждой модели машинного обучения есть простой способ сделать это, и для многих это просто невозможно.

Еще одна проблема, которая часто возникает при использовании некоторых алгоритмов SL, - сложность интерпретации их результатов. Возьмем, например, многослойный персептрон с множеством слоев, функцией активации на нейрон (обычно на каждый слой) и большим количеством весов, становится довольно сложно объяснить, что означает каждый параметр, или точно определить, как изменение одного из входные данные влияют на ответ. Прогнозирующая сила в этом случае достигается за счет использования модели как своего рода черного ящика, ее единственная задача - выдавать прогнозы без контекста или интерпретируемости.

Когда мы используем прогностические модели в качестве черных ящиков, не зная, какие предположения они делают в отношении данных и явления, мы рискуем впасть в завышенную определенность. Поскольку мы знаем, что наши прогнозы точны (точность алгоритмов машинного обучения нередко превышает 90%), но мы не знаем точно, как они работают, мы склонны полностью им доверять, как если бы они были оракулы и принимают решения, принимая их предсказания как должное.

Некоторые примеры последствий чрезмерной определенности:

Один из способов справиться с чрезмерной определенностью - это учитывать неопределенность, измерять и представлять ее, а не сокращать и скрывать ее, и отличная основа для этого известна как байесовская статистика.

Байесовская статистика

Байесовство основано на идее, что вероятность является мерой неопределенности и, как таковая, зависит от информации, доступной человеку, производящему измерение. В качестве меры его можно применять ко всему, что вы можете придумать, включая уникальные события, неизвестные величины или правду о заявлении.

Этот термин относится к Томасу Байесу, священнику XVIII века, который доказал частный случай теоремы, носящей его имя. Эта теорема предоставляет способ вычислить обратную вероятность, то есть вероятность события A с учетом события B, когда мы знаем вероятность B с учетом A.

Для байесовцев это способ сделать вывод о параметрах с учетом модели данных и предшествующего распределения параметра. Это предварительное распределение кодирует имеющуюся информацию до того, как будут обнаружены какие-либо данные.

Используя эту теорему и ее определение вероятности, байесовская статистика может комбинировать имеющуюся информацию о явлении с наблюдаемыми данными о нем и производить обновленную, более точную информацию. И хотя вывод, сделанный таким образом, является субъективным, теория байесовской статистики утверждает, что по мере того, как мы собираем все больше и больше данных, субъективная часть (априорная информация) становится все менее и менее актуальной; субъективное приближается к объективному.

Как и в частотной модели, простые байесовские модели имеют прямую интерпретацию, например, апостериорные распределения линейных коэффициентов измеряют неопределенность
влияния независимой переменной на зависимую.

Но в отличие от частотников, байесовцы могут назначать вероятность гипотезе и вычислять ее напрямую, используя теорему Байеса. Таким образом, мы можем определить, имея прочную теоретическую основу, вероятность гипотезы с учетом данных.

И, в отличие от контролируемых методов обучения, статистика обеспечивает полное распределение переменной ответа с учетом характеристик, что позволяет нам задавать любое количество связанных с ней вопросов. Это условное распределение также кодирует неопределенность наших прогнозов, что позволяет нам, например, вычислять интервалы прогнозирования, а не отдельные значения для каждой входной комбинации.

Некоторые ограничения

Конечно, есть причина, по которой основная наука использует частотные методы вместо байесовских, и все сводится к практичности; в течение прошлых столетий применимость байесовского подхода была ограничена жесткими, иногда невозможными интегралами, которые необходимо было решить или приблизить, чтобы заставить его работать. Один необходим для вычисления «апостериорного» распределения, то есть меры неопределенности после наблюдения данных, а другой - для прогнозного распределения, которое скажет нам, каково вероятное значение «новой» точки данных, возможно, с учетом некоторого другого. переменные.

К счастью, недавние разработки в цепях Маркова Монте-Карло возникли как способ моделирования на основе этих распределений без необходимости явно вычислять интегралы. Моделируя множество наблюдений из апостериорных или прогнозных распределений, мы можем вычислить любую вероятность, которая может быть получена из них.

Даже более продвинутые методы, такие как Автоматический дифференциально-вариационный вывод (ADVI), дополнительно сокращают время и настройку, необходимые для получения апостериорных распределений.

Существуют и другие философские вопросы и практические соображения, которые помешали массовому использованию этих методов, хотя последнее было несколько уменьшено недавними разработками в вероятностном программировании.

Вероятностное программирование

Вероятностное программирование - это название, данное фреймворкам, способным полностью определять байесовскую модель и делать выводы с помощью всего лишь пары строк.

Следующие ниже фрагменты взяты из примера модели обнаружения среднего изменения, взятого из прекрасной книги Кэмерона Дэвидсона-Пилона Байесовские методы для хакеров, где вы можете найти ее полностью.

Вот спецификация модели в PyMC3.

Сделать вывод (то есть решить эти уродливые интегралы) также можно всего за пару строк:

Хотя PyMC3 - отличный фреймворк, есть много других, если Python вам не подходит, например Anglican для Clojure или автономный Stan.

Любовная неопределенность

В заключение, байесовская статистика предоставляет основу для анализа данных, которая может преодолеть многие ограничения, преобладающие в различных методах, таких как контролируемое обучение и частая статистика.

В частности, они предоставляют способ справиться с проблемой чрезмерной определенности, позволяя нам задавать вопросы о вероятности и позволяя аналитику иметь более здоровые отношения с неопределенностью, измеряя и представляя ее вместо того, чтобы вслепую. уменьшая это.

Дополнительная информация