Машинное обучение — это междисциплинарная область, которая использует статистику, вероятность и алгоритмы для изучения данных и получения информации, которая может быть использована для создания интеллектуальных приложений. В этом эссе мы рассмотрим некоторые из наиболее важных тем машинного обучения.

Вероятность и статистика — это связанные разделы математики, которые анализируют относительную частоту событий.

Вероятность связана с предсказанием вероятности будущих событий, а статистика включает анализ частоты прошлых событий.

Вероятность

У большинства людей есть интуитивное понимание степеней вероятности, поэтому мы используем такие термины, как «вероятно» и «маловероятно» в повседневной речи, но мы обсудим, как делать количественные утверждения об этих степенях.

В теории вероятностей событие — это набор экспериментальных событий, которым присваивается вероятность. Если E — событие, то P(E) — вероятность того, что E произойдет. Испытание – это обстоятельство, при котором Е может произойти (успех) или не произойти (неудача).

Это событие может состоять из чего угодно, например, подбрасывания монеты, бросания игральных костей или извлечения цветного шара из мешка. В этих случаях результат события является случайным, поэтому переменная, отражающая этот результат, называется случайной величиной.

Рассмотрим простой пример бросания монеты. Если монета честная, есть равные шансы, что она упадет орлом или решкой. Другими словами, если бы мы постоянно подбрасывали монету много раз, мы ожидали бы, что примерно половина результатов выпадет орлом, а другая половина — решкой. В этом случае вероятность выпадения головы равна половине или 0,5.

Эмпирическая вероятность события рассчитывается путем деления количества случаев события на общее количество наблюдаемых случаев. Если предварительные испытания проводятся и мы видим успехи, вероятность успеха равна s/n. В предыдущем случае. Любая серия подбрасываний монеты может иметь более или менее 50% решек.

Теоретическая вероятность рассчитывается путем деления количества возможных вариантов возникновения события на общее количество возможных исходов. Таким образом, голова может появиться один раз, и есть два альтернативных результата (голова, хвост). 1/2 — реальный (теоретический) шанс выпадения орла.

Совместная вероятность

Вероятность того, что произойдут оба события A и B, представленная как P(A и B) или P(AB), обозначается как P(A и B) или P(AB). Р(А ∩ В) = Р(А)(А). П(В) . Это верно только в том случае, если A и B независимы, а это означает, что возникновение A не влияет на вероятность B и наоборот.

Условная вероятность

Учтите, что A и B не являются независимыми, так как вероятность B увеличивается, если происходит A. Когда A и B не являются независимыми, часто выгодно вычислить условную вероятность P (A|B), которая представляет собой вероятность A при условии, что B произошло: P(A|B) = P(A ∩ B)/ П(А)(Б).

Вероятность события А, обусловленного событием В, обозначается и определяется P(A|B) = P(A∩B)/P(B)

Точно так же P(B|A) = P(A ∩ B)/ P(A) . Мы можем записать совместную вероятность A и B как P(A ∩ B)= p(A).P(B|A), что означает: «Вероятность того, что произойдут оба события, — это вероятность того, что произойдет первое, а затем второе при условии, что произошло первое.

Теорема Байеса

Теорема Байеса связывает условную вероятность двух событий. Например, если мы хотим определить вероятность продажи мороженого в жаркий и солнечный день, теорема Байеса позволяет нам использовать предыдущую информацию о вероятности продажи мороженого в любой другой день (дождливый, ветреный, снежный, и т. д.).

P(H|E) — условная вероятность того, что событие H произойдет при условии, что событие E уже произошло, учитывая, что Hand и E являются событиями. Вероятность P(H) в уравнении по существу представляет собой частотный анализ; учитывая наши прошлые данные, какова вероятность того, что событие произойдет? P(E|H) в уравнении называется вероятностью и представляет собой вероятность того, что свидетельство является точным с учетом результатов частотного анализа. Вероятность того, что фактические данные верны, обозначается P(E).

Пусть H представляет событие, когда мы продаем мороженое, а Ebe — событие погоды. В зависимости от типа погоды мы можем затем узнать о возможности продажи мороженого в любой день. Математически это выражается как P(H=продажи мороженого | E=вид погоды), что соответствует левой части уравнения. Уравнение P(H) в правой части известно как априорное, поскольку мы можем уже знать предельную вероятность продажи мороженого. В нашем случае это P(H = продажа мороженого), или вероятность продажи мороженого независимо от погоды. Например, я могу изучить статистику, показывающую, что 30 человек из 100 возможных купили мороженое в магазине. До того, как я узнал о погоде, мой P(H = продажи мороженого) = 30/100 = 0,3. Теорема Байеса позволяет нам таким образом включать априорную информацию [2].

Интерпретация клинических испытаний — классический пример использования теоремы Байеса. Предположим, ваш врач сообщает вам во время обычного медицинского осмотра, что у вас положительный результат на редкое заболевание. Вы также знаете, что результаты этих тестов содержат некоторую неопределенность. Предполагая, что чувствительность (также известная как истинно положительный показатель) составляет 95% для пациентов с заболеванием, а специфичность (также известная как истинно отрицательный показатель) составляет 95% для здоровых людей.

Если «+» и «» обозначают положительный и отрицательный результат теста соответственно, то точность теста соответствует условной вероятности: P(+|болезнь) = 0,95, P(-|здоров) = 0,95 и P(-| здоров) = 0,95.

В байесовской терминологии мы хотим вычислить P(болезнь|+), вероятность заболевания при положительном результате теста.

P(disease|+) =  P(+|disease)* P(disease)/P(+)

Как следует оценивать P(+), все положительные экземпляры? Есть два варианта: P(+|болезнь) и P(+|здоров). Вероятность ложноположительного результата является аналогом вероятности ложноотрицательного результата. Таким образом, P(+|здоровый) равен 0,05.

Важно отметить, что теорема Байеса демонстрирует, что для вычисления условной вероятности того, что у вас есть заболевание при положительном результате теста, вы должны знать «априорную» вероятность того, что у вас есть заболевание. P(болезнь), если нет другой информации. То есть вы должны быть осведомлены о распространенности заболевания в популяции, к которой вы принадлежите. Если предположить, что эти тесты проводятся для населения, в котором фактическая распространенность состояния составляет 0,5%, P (болезнь) = 0,005 и P (здоровый) = 0,995.

So, P(disease|+) = 0.95 * 0.005 /(0.95 * 0.005 + 0.05 * 0.995) = 0.088

Другими словами, несмотря на кажущуюся точность теста, вероятность того, что у вас это заболевание, составляет менее 9 процентов. Положительный результат повышает вероятность того, что у вас есть заболевание. Однако точность теста 95% не следует интерпретировать как вероятность того, что у вас есть заболевание.

Описательная статистика

Описательная статистика относится к методам обобщения и систематизации информации о наборе данных. Мы будем использовать приведенную ниже таблицу для объяснения некоторых статистических концепций.

Сущности, для которых собирается информация, называются элементами. Пункты в таблице выше - это десять заявителей. Элементы иногда называют темами или случаями.

Характеристика элемента называется переменной. Он может принимать различные значения для различных компонентов. Включая, например, семейное положение, ипотеку, зарплату, ранг, год и риск. Атрибуты — это другое название переменных.

Переменные могут быть качественными или количественными.

Качественная переменная позволяет классифицировать или категоризировать элементы на основе некоторого атрибута. К качественным факторам относятся семейное положение, ипотека, положение и риск. Качественные переменные иногда называют переменными категорий.

Количественная переменная принимает числовые значения и позволяет выполнять над ней осмысленные арифметические операции. Количественными переменными являются год и доход. Количественные переменные иногда называют числовыми переменными.

Дискретная переменная. Дискретная переменная — это числовая переменная, которая может принимать конечное или счетное число значений и для которой каждое значение может быть представлено в виде одной точки с промежутком между точками. Термин «год» является экземпляром дискретной переменной.

Непрерывная переменная. Числовая переменная, которая может принимать неограниченное количество значений, является непрерывной переменной, потенциальные значения которой образуют непрерывный интервал на числовой прямой. Примером непрерывной переменной является «доход».

Население – это совокупность всех элементов, представляющих интерес для определенной темы. Параметр является признаком совокупности.

Выборка – это подмножество всего населения. Статистика – это свойство выборки.

Случайная выборка — это выборка, в которой каждый компонент имеет равную вероятность быть выбранным.

Меры центра: среднее, медиана, мода, средний диапазон

Укажите, где на числовой прямой находится центральная часть данных.

Среднее
Среднее значение набора данных — это его среднее арифметическое. Чтобы определить среднее значение, просуммируйте значения и разделите на общее количество значений. Среднее значение выборки, обозначаемое аббревиатурой x («x-bar»), представляет собой среднее арифметическое значения выборки. Среднее значение населения представляет собой среднее арифметическое населения и представлено греческой буквой («мю», для м).

Медиана
При наличии нечетного числа значений данных, отсортированных в порядке возрастания, медианой является среднее значение. Если число четное, медиана представляет собой среднее значение двух средних значений данных. Когда статистика доходов расположена в порядке возрастания, два средних значения составляют 32 100 долларов США и 32 200 долларов США, при этом среднее значение 32 150 долларов США представляет собой средний доход.

Mode
Mode — это значение данных с наибольшей частотой появления. Моды применимы как к количественным, так и к категориальным переменным, тогда как средние значения и медианы относятся исключительно к количественным переменным. Поскольку каждое значение дохода встречается только один раз, режима нет. 2010 год — самый распространенный год с частотой 4.

Средний диапазон
Медиана набора данных — это среднее значение его максимального и минимального значений. Средний уровень дохода:

mid-range(income) = (max(income) + min(income))/2 = (48000 + 24000)/2 = $36000

Меры изменчивости: диапазон, дисперсия, стандартное отклонение

Количественно определите степень изменчивости, разброса или дисперсии данных.

Диапазон
Диапазон переменной равен разнице между максимальным и минимальным значениями. Диапазон доходов:

range(income) = max (income) − min (income) = 48,000 − 24,000 =$24000

Диапазон отражает только разницу между самым большим и самым маленьким наблюдением, но не отражает то, как данные централизованы.

Дисперсия
Дисперсия населения определяется как среднее квадратов отличий от среднего, обозначаемое как 𝜎² («сигма-квадрат»):

Большая дисперсия означает, что данные более разбросаны.

Выборочная дисперсия s² приблизительно равна среднему значению квадратов отклонений с заменой N на n-1. Эта разница возникает из-за того, что среднее значение выборки используется в качестве аппроксимации истинного среднего значения генеральной совокупности.

Стандартное отклонение
Стандартное отклонение или стандартное отклонение группы чисел показывает, насколько отдельные числа отличаются от среднего значения.

Стандартное отклонение выборки — это квадратный корень выборочной дисперсии: sd = √ s². Например, доходы отклоняются от среднего значения на 7201 доллар США.

Стандартное отклонение населения представляет собой квадратный корень из дисперсии населения: sd = √ 𝜎².

Чем меньше стандартное отклонение, тем уже пик, точки данных ближе к среднему значению. Чем дальше точки данных от среднего, тем больше стандартное отклонение.

Меры положения: процентиль, Z-оценка, квартили

Указывает относительное положение определенного значения данных в распределении данных.

Процентиль
p-й процентиль набора данных — это значение, на которое или ниже которого приходится p процентов значений в наборе данных. Медиана представляет собой 50-й процентиль. Например, 50% значений данных находятся на уровне или ниже медианного дохода в размере 32 150 долларов США.

Процентильный ранг
Процентильный ранг значения данных соответствует доле значений в наборе данных, которые равны или ниже этого значения. Например, процентиль дохода заявителя 1 в размере 38 000 долларов США составляет 90 %, поскольку 90 % всех доходов равны или меньше 38 000 долларов США.

Межквартильный размах (IQR)
Первый квартиль (Q1) набора данных соответствует 25-му процентилю, второй квартиль (Q2) соответствует медиане (50-й процентиль), а третий квартиль (Q3) соответствует 75-му процентилю.

Формула IQR вычисляет разницу между 75-м и 25-м наблюдениями: IQR = Q3 Q1.

x является выбросом, если либо x Q1 1,5 (IQR), либо x Q3 + 1,5 (IQR) (IQR).

Z-оценка
Z-оценка для определенного значения данных указывает количество стандартных отклонений выше или ниже среднего значения элемента данных.

Следовательно, если z положительное, значение выше среднего. Z-оценка для Заявителя 6 составляет (24 000 32 540)/7201 1,2, что указывает на то, что доход Заявителя 6 на 1,2 стандартного отклонения ниже среднего.

Одномерная описательная статистика
Модели в одномерных данных могут быть описаны с использованием центральной тенденции: среднего значения, моды и медианы; и дисперсия: диапазон, дисперсия, максимум, минимум, квартили и стандартное отклонение.

Гистограммы, гистограммы, круговые диаграммы и т. д. являются примерами различных графиков, используемых для отображения одномерных данных.

Двумерная описательная статистика
Двумерный анализ включает изучение двух переменных для определения их эмпирической связи. Как правило, диаграммы рассеяния и ящичные диаграммы используются для отображения двумерных данных.

График рассеяния
Самый простой способ изобразить связь между x и y. Точечная диаграмма — это частый график для двух непрерывных переменных. Каждая точка (x, y) нанесена на декартовой плоскости с горизонтальной осью x и вертикальной осью y. Иногда точечные диаграммы называют корреляционными, поскольку они иллюстрируют корреляцию между двумя переменными.

Корреляция
Корреляция – это статистическая мера, предназначенная для оценки степени связи между двумя переменными. Коэффициент корреляции r измеряет величину и направление линейной связи между двумя количественными переменными. Определение коэффициента корреляции:

где sx представляет стандартное отклонение переменной x, а sy представляет стандартное отклонение переменной y. −1 ≤ г ≤ 1.

Если r положительно и статистически значимо, говорят, что x и y положительно связаны. Рост x соответствует росту y.

Если r отрицательно и статистически значимо, говорят, что x и y отрицательно связаны. Рост x коррелирует со снижением y.

Коробчатые диаграммы
Коробчатая диаграмма, часто известная как диаграмма с ячейками и усами, используется для отображения распределения числовых значений. Обычно используется, когда одна переменная является категориальной, а другая непрерывной. Когда вы используете ящичковую диаграмму, вы делите значения данных на четыре части, называемые квартилями. Вы начинаете с определения центра или медианного значения. Медиана делит значения набора данных пополам. Путем определения медианы каждой половины данных создаются квартили.

В каждом поле на точечной диаграмме отображается диапазон значений от медианы нижней половины значений внизу до медианы большей половины значений вверху. Линия в центре поля соответствует медиане всех значений данных. Затем «усы» указывают самое высокое и самое маленькое значения данных.

Пятизначная сводка набора данных состоит из minimum, Q1, median, Q3 и maximum.

Левый ус простирается до наименьшего числа, которое не представляет собой аномалию. Правый ус простирается до самого высокого значения, для которого нет выброса. Распределение смещено влево, если левый ус длиннее правого, и наоборот. Когда усы примерно одинаковой длины, распределение симметрично.

Спасибо за чтение.