Что такое начальная загрузка?
Чтобы понять начальную загрузку, давайте начнем с простой задачи:
Нам дан набор цен на дома, и мы хотим узнать медианную цену дома.
Медиану легко вычислить напрямую. , но как мы можем вычислить планки погрешностей?
Если бы это было среднее значение, мы могли бы сделать некоторые предположения и применить стандартные статистические методы и получить правильный результат.
Однако для медианы не существует аналогичного метода.
В общем, если нет явной формулы для распределения ошибок и нет простого способа попытаться понять точность значений меры.
Однако, если бы у нас были бесконечные данные, решить эту проблему было бы легко задача-
Измерить количество во многих независимых наборах данных одинакового фиксированного размера
Использовать эмпирическое распределение для определения распределения.
Проблема здесь в том, что у нас никогда не будет бесконечных данных!
Мы можем получить ваши 1000 точек данных один раз, а затем должны работать с ними.
Возникает вопрос:
«Как мы можем расширить один фиксированный набор данных, чтобы он обрабатывался как 1000 независимые?»
Есть решение!!
Выборка с заменой
Что произойдет, если мы будем рассматривать наши данные как истинное распределение и извлекать из него наборы синтетических данных?
Чтобы создать наборы синтетических данных, мы используем выборку с заменой из нашего набора данных:
Данный набор данных:
[1, 2, 4, 5, 7, 9,10]
Медиана: 5
Возможные выборки с соответствующими медианами:
[ 1, 1, 2, 4, 9, 10, 10], медиана: 4
[ 2, 4, 5, 5, 7, 7, 7], медиана : 5
[1, 1, 1, 1, 1, 1, 1], медиана: 1
[1, 2, 4, 5, 7, 9,10], медиана: 5
… и так далее
Распределение этих медиан дает нам предположение об истинном распределении медиан по набору данных такого размера.
Верно-
С начальной загрузкой