Что такое начальная загрузка?

Чтобы понять начальную загрузку, давайте начнем с простой задачи:
Нам дан набор цен на дома, и мы хотим узнать медианную цену дома.
Медиану легко вычислить напрямую. , но как мы можем вычислить планки погрешностей?

Если бы это было среднее значение, мы могли бы сделать некоторые предположения и применить стандартные статистические методы и получить правильный результат.
Однако для медианы не существует аналогичного метода.

В общем, если нет явной формулы для распределения ошибок и нет простого способа попытаться понять точность значений меры.
Однако, если бы у нас были бесконечные данные, решить эту проблему было бы легко задача-
Измерить количество во многих независимых наборах данных одинакового фиксированного размера
Использовать эмпирическое распределение для определения распределения.

Проблема здесь в том, что у нас никогда не будет бесконечных данных!

Мы можем получить ваши 1000 точек данных один раз, а затем должны работать с ними.
Возникает вопрос:

«Как мы можем расширить один фиксированный набор данных, чтобы он обрабатывался как 1000 независимые?»

Есть решение!!

Выборка с заменой

Что произойдет, если мы будем рассматривать наши данные как истинное распределение и извлекать из него наборы синтетических данных?
Чтобы создать наборы синтетических данных, мы используем выборку с заменой из нашего набора данных:
Данный набор данных:

[1, 2, 4, 5, 7, 9,10]

Медиана: 5

Возможные выборки с соответствующими медианами:
[ 1, 1, 2, 4, 9, 10, 10], медиана: 4
[ 2, 4, 5, 5, 7, 7, 7], медиана : 5
[1, 1, 1, 1, 1, 1, 1], медиана: 1
[1, 2, 4, 5, 7, 9,10], медиана: 5
… и так далее

Распределение этих медиан дает нам предположение об истинном распределении медиан по набору данных такого размера.

Верно-

С начальной загрузкой