МАТЕМАТИКИ ДЛЯ НАУКИ ДАННЫХ

Выборка начальной загрузки с использованием Python Numpy

Выборка с заменой на Python!

Использование таких теорем, таких как CLT или Central Limit Theorem, может привести к некоторым вопросам. Независимо от того, достигли ли мы достаточно большого размера выборки или к какой статистике применима теорема - это некоторые общие пробелы, оставленные CLT.

Итак, вместо того, чтобы полагаться на теоремы, мы можем моделировать простое распределение.

Введение в начальную загрузку

Отбор проб с заменами!

Идея начальной загрузки может показаться сложной. Возьмем пример. Вы бросаете кости и получаете 6 в одном сценарии. Но означает ли это вероятность того, что снова получится 6 изменений? Без прав! Подбрасывание монеты и бросание игральных костей - это своего рода пример бутстраповой выборки.

Согласно Statisticshowto, бутстрапирование - это тип повторной выборки, при которой большое количество меньших выборок одного и того же размера многократно отбираются с заменой из одной исходной выборки.

Представьте, что мы рассматриваем выборку как всю нашу совокупность. Мы можем настроить образец, чтобы понять пропорцию изменений от одного образца к другому.

Загрузка с помощью Numpy

Метод «random.choice» NumPy выводит случайное число из параметра диапазона. Вы также можете указать параметр размера, чтобы получить выборку из всей генеральной совокупности.

Если вы посмотрите на следующий пример, вы увидите, что значения выбираются более одного раза. Таким образом, он выполняет эту загрузочную выборку или «самозагрузку».

Теперь посмотрите на следующий сценарий. Код неисправен, потому что функция не может сгенерировать 20 значений. Когда инициируется «replace = False», это означает, что выходные значения не могут повторяться, иначе можно вывести только шесть значений.

Взгляните на следующий код. Когда размер был равен 6, код запускался и давал уникальные выходные данные.

Применение Bootstrap Sampling

Самостоятельная загрузка просто потрясающая. А его приложения делают его еще более полезным в мире статистики. Используется в ведущих алгоритмах машинного обучения, таких как деревья решений и стохастическое повышение градиента.

Заслуга этой удивительной техники отбора проб принадлежит Брэдли Эфрону. Вам не нужно проводить операции на всем населении. вместо этого мы можем выполнить повторную выборку по нашей текущей выборке. Уверенность в вероятности получения нашего параметра упрощает процесс для специалистов по данным. Им не нужно получать никаких дополнительных данных!

Ссылка



Мир!