Как предсказать что-то без данных

Часто в жизни вам приходится предсказывать вещи с небольшим количеством данных или без них. Или просто вы будете знать распределение населения и не более того. Например, какова вероятность того, что дерево бонсай, подаренное вам на Рождество, попадет на неловкую семейную встречу?

В этой статье я кратко расскажу о некоторых важных выводах из статистики, которые помогут вам ответить на такие вопросы. Я не обещаю предсказывать будущее, я просто собираюсь показать вам лучшие методы, которые у нас есть для этого, которые часто дают удивительно хорошие результаты, несмотря на отсутствие данных.

Следующий текст был вдохновлен главой Алгоритмы для жизни »Брайана Кристиана и Тома Гриффитса.

Прогнозирование продолжительности жизни деревьев бонсай - принцип Коперника

Ваш странный дядя подарил вам дерево бонсай, что явно было рождественским подарком, купленным в панике. К нему даже не прилагалось руководство по уходу или буклет с инструкциями. Они явно ничего не знают о деревьях бонсай. Вы тоже, но вы знаете, что они известны одной вещью - смертью.

Поэтому, подобно хорошему (и немного садистскому) специалисту по обработке данных, ваш разум мгновенно движется к попытке предсказать его смерть. Дело в том, что все, что вы знаете, это то, что этому дереву 4 года. Вы не представляете, как долго могут жить деревья бонсай, и не знаете, почему они решают отказаться от воли к жизни. Так как же можно это предсказать?

В идеальном мире больших данных у вас был бы массив данных о миллионах деревьев бонсай, и у вас было бы достаточно знаний о бонсай, чтобы иметь возможность извлекать черты из своего маленького, потенциально склонного к самоубийству друга. Затем вы можете запустить несколько моделей машинного обучения и довольно хорошо предсказать, сколько проживет ваш малыш. Но у вас нет такой роскоши, как много данных.

Так что ты можешь сделать?

Входят Коперник и Джон Ричард Готт III.

Ричард Готт III, астрофизик, впервые подумал о своем методе Коперника оценки продолжительности жизни в 1969 году, когда стоял, глядя на Берлинскую стену и размышляя о том, как долго она продержится. Готт предположил, что принцип Коперника применим в тех случаях, когда ничего не известно; если в его посещении не было чего-то особенного (чего он не ожидал), это давало 50% -ный шанс, что он видел стену после первой половины ее жизни, и 75% -ную вероятность, что он видел ее после первого четверть.

Судя по возрасту в 1969 году (8 лет), Готт покинул стену с 50% уверенностью, что ее не будет в 1993 году (1969 + 8 · (1,5 / 0,5)).

Таким образом, мы можем применить ту же логику к нашему дереву бонсай. Исходя из его возраста (4 года в 2021 году), мы можем использовать логику Готта для получения аналогичного результата - (2021+ 4) * (1,5 / 0,5).

Поэтому с 50% уверенностью можно ожидать, что к 2033 году наш маленький друг вернется в землю, где ему, вероятно, и место.

Однако 50% доверительные интервалы бесполезны, не так ли. Так что же произойдет, если мы увеличим его до стандартной 95% уверенности? Мы получили результат, который говорит с 95% уверенностью, что наш бонсай проживет от 0,1 до 36 лет.

Как улучшить свои догадки

Принцип Коперника на самом деле представляет собой всего лишь адаптацию правила Байеса с так называемым неинформативным априорном (мы абсолютно ничего не знаем о лежащем в основе распределении жизней бонсай).

Очевидно, если бы мы знали основное распределение ожидаемой продолжительности жизни бонсай, мы могли бы сделать гораздо более точные предположения.

Дерево бонсай будет следовать так называемому степенному распределению. Распределение по степенному закону - это распределение, допускающее множество масштабов. Бонсай может прожить месяц, год, десятилетие, столетие или даже тысячелетия. При применении закона Байеса к степенному распределению подходящей стратегией прогнозирования является правило умножения, в котором вы умножаете прошедшее время на постоянный коэффициент. В примере с принципом Коперника эта константа будет равна 2. Следовательно, если у вас малоинформативный априор и вы не знаете о распределении, вы должны предположить, что ваш бонсай должен жить ровно столько, сколько он уже существует.

Многие другие распределения имеют разные оптимальные стратегии прогнозирования при применении теоремы Байеса. Например, для нормального распределения требуется правило среднего значения, согласно которому вы должны прогнозировать среднее значение, если бонсай ниже среднего, и прогнозировать немного дольше, если оно превышает среднее значение.

Последствия для повседневной жизни

Итак, что это значит для повседневной жизни? Оказывается, люди в целом довольно хорошо умеют использовать правильные правила предсказания. Это было подчеркнуто в эксперименте Гриффитс и Тененбаум. Они сравнили человеческую интуицию с реальными данными с применением правила Байеса и обнаружили, что результаты были очень близки.

Поэтому доверять своей интуиции имеет смысл в крайнем случае - если действительно данных нет. Возможно, данных нет, но ваш разум выработал собственное понимание распределения посредством осмоса.

«Маленькие данные - это замаскированные большие данные».

- Брайан Кристиан и Том Гриффитс

Тем не менее, ваши изначальные приоритеты зависят от предоставленной вам информации. Итак, чтобы делать более точные прогнозы, вам просто нужно быть хорошо информированным и беспристрастным в своем понимании мира.

В наши дни, когда алгоритмы кормят вас сенсационными новостями, они знают, что вы хотите их видеть, имеет смысл разнообразить вводимые вами новости, и, как утверждают Кристиан и Гриффитс, было бы даже неплохо отключить новости.

А если на Рождество у вас все же получится бонсай - просто погуглите, как за ним ухаживать.

Спасибо за чтение, надеюсь, вам понравилось. Некоторые ссылки на другие мои статьи можно найти ниже.

Если я вдохновил вас присоединиться к среде, я был бы очень благодарен, если бы вы сделали это по этой ссылке - это поможет мне в будущем писать лучший контент.

Как анализировать данные опросов в Python
Вот несколько советов с кодом для очистки, анализа и визуализации данных опросов на Python. todatascience.com

Как легко отображать графики Matplotlib и фреймы данных Pandas динамически на вашем веб-сайте.
Удивительно простой подход к демонстрации ваших графиков и фреймов данных в Интернете для всеобщего обозрения - с меньшими затратами чем… todatascience.com

Ваше здоровье,

Джеймс.

Как предсказать что-то без данных - и деревья бонсай

Прогнозирование продолжительности жизни деревьев бонсай - принцип Коперника

Как улучшить свои догадки

Последствия для повседневной жизни

Вопросы по теме