В этой статье перечислены несколько наиболее часто используемых концепций машинного обучения/статистики на простом английском языке для людей, которые планируют заняться наукой о данных.

Нулевая гипотеза

Определение: Нулевая гипотеза, обозначаемая как H0, представляет собой предположение/утверждение.

Например:

При проверке того, убьет ли средство от сорняков марки «А» водяную траву во дворе, нулевая гипотеза состоит в том, что средство от сорняков марки «А» не справится с водяной травой.

Альтернативная гипотеза

Определение: Альтернативная гипотеза (H1) противоположна нулевой гипотезе.

В приведенном выше примере альтернативная гипотеза заключается в том, что средство от сорняков марки «А» сделает свою работу и избавится от водяной травы.

P-значение

Определение: P-значение, обозначающее значение вероятности, является статистическим термином для количественной оценки возможности нулевой гипотезы (события, которое считается истинным).

Например:

Значение p, превышающее 0,05 (найдено сэром Фишером), считается высоким значением p, что указывает на нулевую гипотезу о том, что средство от сорняков марки «А» не убивает водяную траву, вероятно, верно. Значение p, меньшее или равное 0,05, отвергает эту нулевую гипотезу.

Случайная выборка

Определение: Случайная выборка — это случайный выбор подмножества лиц из совокупности (большего пула/набора данных). Каждый человек имеет равные шансы быть избранным.

Например:

Ферма собрала 10 000 яблок. Владелец фермы случайным образом выбрал 20 яблок, чтобы проверить качество урожая.

Параметр населения

Определение: Параметр населения, также называемый статистическим параметром, количественно определяет аспекты населения. Примерами параметра совокупности являются среднее значение совокупности и разница между отдельной точкой данных и ее средним значением совокупности.

Например:

Женщины (население), выросшие в Соединенных Штатах, имеют средний рост (параметр населения) 5 футов 4 дюйма.

Доверительный интервал

Определение: доверительный интервал — это диапазон значений, ограниченный выше и ниже среднего значения выборки, который будет содержать истинный параметр генеральной совокупности при многократном взятии случайной выборки.

Например:

Опрос, проведенный среди 10 различных групп женщин, выросших в Соединенных Штатах, показал, что средний рост каждой группы колеблется от 5 футов 2 до 5 футов 5 дюймов (доверительный интервал).

Статистическая значимость

Определение. Статистическая значимость помогает определить вероятность истинности нулевой гипотезы. Когда это значимо (значение p меньше или равно 0,05), это дает исследователям уверенность в том, что они отвергают нулевую гипотезу.

Например:

Согласно случайной выборке результатов испытаний на предмет того, эффективен ли гербицид марки «А» на водяной траве, результаты выборки показывают, что менее 5 тестов из 100 образцов (статистическая значимость) указывают на то, что гербицид неэффективен (нулевая гипотеза). ). Таким образом, можно сделать вывод, что гербицид марки «А» эффективен на водяной траве (альтернативная гипотеза).