Подход к решению задачи подсчета птиц

Что вы делаете, когда у вас большой набор данных, а выполнение ваших алгоритмов занимает вечность? Или, скажем, вы хотите узнать общее количество людей, пьющих Starbucks за день? Собираетесь ли вы простоять весь день вне Starbucks и считать людей, входящих в Starbucks? Что ж, это было бы абсурдно и отнимало бы много времени! Итак, здесь мы используем методы выборки и выбираем подмножество данных для анализа. Получение всего набора интересующих данных слишком дорого или требует много времени. Кроме того, обработка всех собранных данных требует больших затрат времени и средств. Таким образом, использование алгоритма выборки может уменьшить размер данных там, где лучше, но может быть использован более дорогой алгоритм. Отбор проб помогает ответить на вопросы, связанные с проблемой подсчета птиц, количеством людей, переживших землетрясение.

Ключ к эффективной выборке состоит в том, что выборка должна работать почти так же хорошо, как и использовать весь набор данных. Например, если я буду брать данные только с 9 утра до 11 утра, то очевидно, что у меня будет больше людей, пьющих Starbucks, потому что сейчас утро, и люди выработали привычку пить кофе перед тем, как пойти на работу утром. Таким образом, следует выбрать эффективный и беспристрастный подход к выборке из большого набора данных, который будет охватывать все вариации, обнаруженные в большом наборе данных.

Выборочные подходы:

A.Случайная выборка: для этого типа выборки существует равная вероятность выбора любого конкретного элемента. Например: выбор 10 чисел от 1 до 100. Здесь каждый номер имеет равную вероятность быть выбранным.

  1. Выборка с заменой: в этом типе техники объекты не удаляются из генеральной совокупности. Допустим, из колоды из 52 карт я хочу выбрать одну карту, здесь все карты имеют равную вероятность 1/52. Итак, если я выберу случайным образом и получу сердце короля, и теперь мне нужно выбрать еще одну карту, но если не положить обратно сердце короля, то моя вероятность будет 1/51. Но в этой технике я возвращаю короля червей, чтобы вероятность оставалась одинаковой для всех карт. Здесь то, что вытащили первым, не должно влиять на вторую или любую другую. Математически ковариация между двумя выборками равна нулю. Мы должны использовать выборку с заменой, когда у нас есть большой набор данных. Потому что, если мы используем выборку без замены, то вероятность выбора каждого элемента будет постоянно меняться, и после определенного момента она станет слишком сложной. Выборка с заменой может сказать нам, что чаще встречается в наших данных.
  2. Выборка без замены: в этом типе техники объекты удаляются из генеральной совокупности. Здесь все, что мы уберем первым, повлияет на второе. Выборка без замены полезна, если набор данных невелик. Математически ковариация между двумя выборками не равна нулю.

Тип используемой нами выборки во многом зависит от вопроса, на который мы пытаемся ответить.

Когда совокупность состоит из разных типов объектов с большим количеством объектов, простая случайная выборка может не представить эти типы объектов с меньшим количеством случаев. Это может вызвать проблемы при анализе, поскольку редкий класс не будет включен в выборку. Итак, используется метод стратифицированной выборки.

Б. Стратифицированная выборка. В этом типе техники мы производим выборку из определенной группы объектов из всей совокупности. Из каждой группы выводится одинаковое количество объектов, даже если группы имеют разный размер. Кроме того, существует вариант, когда количество объектов, нарисованных из каждой группы, пропорционально размеру этой группы. Возьмем знаменитую проблему Титаника, где выжило больше женщин, чем мужчин. Итак, если мы произвольно выберем мужчину и женщину, мы получим неправильный ответ, и в нашей модели обучения будет дисбаланс. Мы должны использовать метод стратифицированной выборки, при котором мы тщательно отбираем мужчин и женщин. Мы можем выбирать мужчин и женщин в зависимости от их выживаемости.

Отбор проб не всегда полезен. Иногда происходит потеря информации. Также очень важно определить правильный размер выборки. Люди начали использовать адаптивную или прогрессивную выборку. Этот подход начинается с небольшой выборки, а затем увеличивается размер выборки, пока не будет получена выборка достаточного размера.

Посмотрите этот прекрасный пример того, как выборка помогает при дисбалансе классов:



Вывод:

Методы отбора проб широко используются при решении самых разных задач. Выборка помогает снизить затраты, экономит время, помогает в организации данных, собирает интенсивные и исчерпывающие данные и подходит, когда у нас ограниченные ресурсы. Однако нам нужны знания предметной области для выборки из совокупности. Кроме того, когда единицы измерения неоднородны, выборка не имеет смысла и, конечно, есть вероятность систематической ошибки.

Ссылка: