Пошаговая статистика Ace для науки о данных

Введение в статистику; Методы отбора проб - с интервью, вопросы и ответы

Зачем нам изучать статистику для машинного обучения?

Статистика помогает нам анализировать данные и делать из них выводы, что, в свою очередь, помогает нам понять данные. Например, с помощью статистики мы можем понять, являются ли наши данные искаженными, нормально распределенными или данные содержат выбросы. Это помогает нам определять среднее / медианное значение / режим наших данных и позволяет нам видеть диапазон, в котором находится большинство точек данных. Короче говоря, это помогает в части машинного обучения EDA, которая требует большой очистки данных, а также помогает в разработке функций.

Статистику можно разделить на две части:

а) Описательная статистика: это позволяет нам анализировать и обобщать данные с помощью различных графиков / графиков и таблиц.

Графики:

· Коробчатый сюжет

· Гистограмма

Табличное представление:

· Центральная тенденция (информирует о среднем / медиане / режиме)

· Среднеквадратичное отклонение

· Дисперсия

· Диапазон данных

б) Выводная статистика: выводимая статистика помогает нам сделать вывод на основе выборочных данных о совокупности после выполнения описательного статистического анализа выборочных данных.

Это помогает нам определить, правильно ли образец представляет всю генеральную совокупность и насколько мы уверены в этом, с помощью доверительного интервала.

Кроме того, полезно выбирать среди нескольких выборок из одной и той же совокупности, какая из них более точно описывает совокупность.

У нас есть метод проверки нескольких гипотез, который помогает нам делать такие выводы о популяции на основе выборочных данных, а именно:

· Нулевая и альтернативная гипотеза.

· Z-тест

· Т-тест

· Тест хи-квадрат

· Тест ANOVA и ANCOVA

🎯 Численность населения

Население. Население представляет собой большой объем точек данных объекта, которые мы собираемся проанализировать.

Пример: если мы хотим узнать средний рост всех жителей страны, тогда рост всех людей в стране представляет собой численность населения.

🎯 Что такое образец

Выборка. Это небольшая коллекция точек данных, взятых из данных о населении. Хорошая выборка может быть близким представителем населения. Выборка всегда содержит меньше точек данных, чем генеральная совокупность.

Пример: Предположим, я выбрал 1000 человек из страны и проанализировал их средний рост, а затем решил, что средний рост всех жителей страны.

🎯 Почему требуется отбор проб:

Население содержит огромный объем данных, и собрать такой объем практически невозможно. Кроме того, даже если это возможно, это займет много времени. Выборка облегчает работу, требует меньше времени и практически возможна, поскольку при выборке мы не выбираем всю генеральную совокупность. Скорее мы выбираем приличное количество элементов из совокупности, которые потенциально могут суммировать совокупность.

Примечание. Выборка должна точно отражать генеральную совокупность.

🎯 Как выборка влияет на анализ, если она не сделана должным образом или из генеральной совокупности не выбрано нужное количество элементов?

Как мы видели, мы не можем анализировать данные по всей стране, поэтому мы выбрали небольшую группу людей внутри страны, которая может более или менее представлять население страны в целом. Но мы должны быть уверены, что выбранная нами выборка не является предвзятой и правильно представляет совокупность; в противном случае образец даст неверный результат. Размер выборки (количество точек данных в выборке) также играет жизненно важную роль в общей производительности выборки.

Мы можем использовать различные методы выборки, чтобы уменьшить систематическую ошибку и повысить точность.

🎯 Различные методы выборки:

1) Вероятностные методы выборки

2) N Вероятностные методы выборки

1. Методы вероятностной выборки

i) Простая случайная выборка. В этом процессе выборки мы случайным образом выбираем точки данных из генеральной совокупности, чтобы создать выборку, и поэтому каждая точка данных получает равные шансы быть выбранным для образца. Если у нас нет предварительного представления о генеральной совокупности, это может быть простым, но эффективным способом создания выборки.

Здесь я выбираю случайным образом и создаю выборку, которая может более или менее суммировать совокупность.

Пример: Предположим, вы хотите купить как можно больше конфет, имеющихся в магазине, в течение одной минуты. В этой ситуации мы можем начать случайный выбор как можно большего количества конфет, и при выборе мы не следуем никаким правилам, и именно так работает случайная выборка.

Проблема: если популяция состоит из разнородных элементов (например, мужчин, женщин, старых, молодых, студентов, профессионалов и т. д.), и один из элементов (предположим, мужчина) относительно больше по численности, чем другие присутствуют в генеральной совокупности, тогда может быть вероятность систематических ошибок в выборке, и выборка может не быть хорошим представителем генеральной совокупности. В нашем случае из приведенного выше примера предположим, что красных конфет слишком много по сравнению с другими цветами, тогда вероятность выбора красных конфет больше, чем других, что вызывает проблему.

ii) Систематическая выборка: этот метод выборки очень похож на случайную выборку, но с той лишь разницей, что вместо случайного выбора точек данных он выбирает 1-ю точку данных случайным образом. а затем через равные промежутки времени выбирает следующие. В этом методе это означает, что точки данных выбираются по систематическому шаблону.

Пример: Предположим, мы выбираем несколько алфавитов от A до Z. Теперь, если мы намерены выбрать алфавиты, которые расположены в позиции, кратной 5, и мы случайным образом начинаем выбирать с буквы «B», за которой следует регулярные интервалы, то есть B, G, I и т. д. Этот вид выборки показывает закономерность, поэтому его называют систематической выборкой.

Проблема. Предположим, что популяция содержит данные как о мужчинах, так и о женщинах, и все данные о женщинах размещены в четных позициях, а данные для мужчин - в нечетных. В этом случае, если мы применим систематическую выборку и выберем каждую четную точку данных генеральной совокупности для создания выборки, то выборка будет сильно смещена и не сможет суммировать генеральную совокупность.

iii) Стратифицированная выборка: этот метод выборки очень эффективен, когда у нас есть популяция с разными разновидностями. Здесь мы делим население на небольшие группы, называемые стратами, на основе разных категорий (например, возраст, пол, квалификация, увлечения и т. Д.), А затем применяем случайную или систематическую выборку для каждой страты и выбираем некоторые элементы из этих слоев. Количество элементов, которые должны быть взяты из слоев, определяется соотношением объемов элементов, присутствующих в каждом пласте. Затем мы объединяем элементы, собранные из разных слоев, и делаем идеальный образец со всем разнообразием.

Проблема. Этот процесс трудоемкий и трудоемкий, но он может обеспечить точность. Нам нужно определить количество слоев, которые нам нужны, и если данные сильно различаются, это может стать утомительной работой.

iv) Кластерная выборка: она может быть двух типов:

а) Одноэтапная кластерная выборка: при таком типе выборки совокупность делится на подгруппы, которые столь же разнообразны, как и сама совокупность. В отличие от страт кластеры неоднородны по своей природе и близко представляют популяцию. После того, как кластеры сформированы, затем, применяя случайную или систематическую выборку, мы выбираем случайные кластеры и изучаем кластер, чтобы определить, точно ли он представляет популяцию, а затем выбираем лучшего представителя населения, который будет выборкой для исследования. Мы могли бы использовать различные методы проверки гипотез, чтобы выбрать лучший кластер, который точно представляет совокупность.

б) Двухэтапная кластерная выборка: в этом методе кластеризации после случайного / систематического составления коротких списков кластеров мы не выбираем в качестве выборки весь наиболее подходящий кластер; вместо этого мы выбираем несколько элементов из каждого включенного в окончательный список кластера и формируем выборку.

2. Методы маловероятной выборки

i) Удобная выборка. Этот тип выборки основан на удобстве. Это означает, что какие бы данные ни были легко доступны, мы полагаемся на них в нашем исследовании. Этот тип выборки прост, но ненадежен и не может точно обобщить всю совокупность.

Пример: Предположим, мы собираемся открыть танцевальную академию в каком-то районе и хотим, чтобы люди помогли нам выбрать, какие типы танцев они хотят видеть в самой академии. Спрашиваем людей, сидящих в первом ряду, и прислушиваемся к их мнению. Этот тип данных удобен для сбора сборщиками данных, но он не представляет всю совокупность.

ii) Добровольная выборка: она аналогична удобной выборке, но здесь мы не выбираем элементы для выборки; скорее, субъекты становятся волонтерами и участвуют в выборке.

Пример: Для той же танцевальной академии, если мы хотим попробовать «Добровольную выборку», то в этом случае мало энтузиастов выйдут вперед и поделятся своим мнением о некоторых формах танца, а мы склонны резюмируйте, чего хотят люди в этой области. Проблема с этой техникой в том, что она может быть очень предвзятой и показывать только часть того, чего хочет фактическое население. Потому что, если среди населения больше людей, не являющихся добровольцами, это означает, что мы теряем основное мнение, которое может повлиять на результат.

iii) Целенаправленная или оценочная выборка. При таком типе выборки выборка выбирается теми, кто проводит анализ, и может иметь место высокая вероятность предпочтения. Во-вторых, эта выборка очень привязана к исследованию.

Пример: Опять же, применительно к той же танцевальной академии, если мы попробуем использовать подход «Целенаправленный или осуждающий», мы спросим людей об их близости к современным танцевальным формам. Таким образом, в этом типе выборки отбираются только те, кто любит современное, а остальные исключаются из выборки, что может не дать реального понимания того, что люди думают о других танцевальных формах.

iv) Снежный ком: в этом виде выборки мы сначала выбираем случайный элемент из совокупности, а затем позволяем этому элементу назначить следующий элемент, который станет частью нашего образец. В этом методе размер выборки увеличивается как катящийся снежный ком, поэтому он называется выборкой снежного кома. Этот тип методики выборки можно использовать, когда мы не можем определить какую-либо закономерность в популяции.

Пример: Теперь для той же танцевальной академии, если мы выберем подход «Снежный ком», то мы сможем случайным образом выбрать первого человека из популяции, который предпочитает современный танец, и попросить его / ее выбрать следующий человек, который разделяет те же интересы. Это работает с цепной реферальной структурой, и с каждым переходом размер выборки увеличивается.

Основные результаты

Для каждого честолюбивого специалиста по данным статистика - это первая ступенька. Чтобы иметь четкое и глубокое понимание статистики, каждый должен изучить ее различные концепции. Каждая детальная модель в машинном обучении или науке о данных начинается с подходящего образца. Как таковых не существует правильной или неправильной техники отбора проб. Это всегда зависит от того, с какой проблемой мы имеем дело. Понимание постановки проблемы, представленных данных и последующего выбора правильных методов выборки в зависимости от ситуации дает нам преимущество для построения эффективной модели. Итак, в этой статье мы рассмотрели различные методы отбора проб и их плюсы и минусы.

Предстоящая статья:

Доверительный интервал; Выбросы; Центральная предельная теорема; Нормальное распределение; Стандартное нормальное распределение

Продолжайте учиться, продолжайте расти! 😃

Свяжитесь со мной - https://www.linkedin.com/in/afrinsultana2404/

Пошаговая статистика Ace для науки о данных