Наука о данных, вероятность, статистика, машинное обучение

Почему вероятность важна для машинного обучения?

Мы можем наблюдать за неопределенностью, используя инструменты вероятности.

Машинное обучение связано с созданием прогнозных моделей на основе неопределенных данных. Неопределенность подразумевает работу с несовершенной или фрагментированной информацией. Основными источниками неопределенности в машинном обучении являются зашумленные данные, недостаточный охват проблемной области и ошибочные модели.

Вероятность и почему она важна?

Исследование вероятности является причиной определения степени уверенности в том, что вывод или результат действительны. Или, с другой стороны, лучше сказать, что результат, например, средний балл, мог быть получен не только из-за случайности.

Например, давайте посмотрим на группу A, которая интересуется 5 часами дополнительных тренировок по плаванию каждую неделю, и группу B, которая не имеет дополнительных тренировок по плаванию каждую неделю.

Мы обнаруживаем, что группа A отличается от группы B на тесте на прочность, однако сможем ли мы заявить, что имеет значение дополнительная тренировка или что-то другое?

Инструменты, которые дает исследование вероятности, позволяют нам определить конкретную математическую вероятность того, что имеет значение именно тренировка, а не нечто иное, например, случайность.

Что такое нормальная кривая? Почему нормальная кривая важна для вероятности?

Это колоколообразная кривая для визуального изображения распределения точек данных.

Нормальная кривая дает нам причину для понимания вероятности, связанной с любым мыслимым результатом, например, шансов получить определенный балл за тест или шансов на успех при одном подбрасывании монеты.

Нормальная кривая означает распределение значений, в котором среднее, медиана и мода равны. Скорее всего, вы помните, что если медиана и среднее значение различаются, в этот момент дисперсия искажается в ту или иную сторону. Нормальная кривая не наклонена. У него приличная форма всего одна, а горбинка прямо посередине.

Во-вторых, нормальная кривая полностью сбалансирована относительно среднего. Если вы свернули одну часть изгиба по средней линии, две части безупречно подошли бы друг к другу. Они неотличимы. Одна часть кривой идеально отображает другую.

Наконец, хвосты нормальной кривой - это асимптотика. Это означает, что они постоянно приближаются к горизонтальной оси, но никогда не соприкасаются. Колоколообразная форма нормальной кривой также дает графику другое название - колоколообразная кривая.

Однако, когда мы управляем огромными массивами данных, более 30, и мы берем повторные выборки из совокупности, значения в изгибе намеренно оценивают состояние нормальной кривой.

Это важно в свете того факта, что многое из того, что мы делаем, когда говорим о выводе из выборки в совокупность, предполагает, что то, что взято из совокупности, обычно рассредоточено.

Кроме того, по неизвестным причинам в природе, в общем и целом, многим вещам присваиваются атрибуты того, что мы называем нормальным. То есть существует множество поводов или событий непосредственно в центре раздачи, но, как правило, не так много на каждом конце.

Например, относительно мало высоких людей и относительно мало низкорослых, но есть группы людей среднего роста прямо в центре распределения роста. Есть исключительно крутая и удобная мысль, которая называется центральная предельная теорема.

Юноши и девушки утверждают, что это означает, что во вселенной довольно нерегулярных событий, означающих до некоторой степени случайные значения, эта теория проясняет возникновение до некоторой степени нормально распределенных значений выборки, которые образуют причину большей части выводимых значений. инструменты.

Основные положения центральной предельной теоремы. Для начала, значение, например сумма или среднее значение, относящееся к многочисленным независимым наблюдениям, будет примерно нормально распределяться.

Во-вторых, эта заурядность становится все более обычной по мере увеличения количества наблюдений или выборок. Это восприятие является основной связью между получением результатов из выборки и возможностью подвести итоги этих результатов для населения.

Ключевым предположением будет то, что продолжение выборки из популяции, независимо от того, является ли это распределение населения чем-то странным или явно необычным, приведет к получению большого количества баллов, приближающихся к нормальному.

Если это не так, то в этот момент нельзя применить многочисленные параметрические тесты выводимой статистики, предполагающей нормальное распределение. Итак, вот реальность, которая в любом случае действительна в отношении нормальных распределений, средних значений и стандартных отклонений.

Для любого распределения баллов, мало обращающего внимания на отклонение среднего и стандартного отклонения, если баллы распределены нормально, практически 100% баллов будут соответствовать где-то в диапазоне от –3 до +3 стандартных отклонений от среднего.

Это важно на том основании, что применяется каждое нормальное распределение. В результате этого стандарта постепенно, мало обращая внимания на значение среднего или стандартного отклонения, распределения могут быть сопоставлены друг с другом.

С учетом всего вышесказанного мы еще больше расширим нашу позицию. Если присвоение баллов является нормальным, мы также можем сказать, что определенный уровень случаев будет находиться между различными точками по оси x, например, между средним значением и 1 стандартным отклонением. .

Проводя экспертизу, мы закончим работу с дистрибутивами, которые, безусловно, должны быть необычными, но нам придется противопоставлять их и друг другу. Кроме того, чтобы провести такую ​​корреляцию, нам нужна норма.

Стандартная оценка, например, Z-оценки аналогичны в свете того факта, что они нормированы в единицах стандартных отклонений.

Z-оценка относится как к необработанной оценке, так и к области вдоль оси x распределения. Более того, чем выше показатель Z, такой как -2 или +2,6, тем дальше он от среднего. Z-баллы в разных дистрибутивах идентичны.

Все, что мы утверждаем, - это то, что при нормальном распределении различные области кривой включаются в различные числа стандартных отклонений или Z баллов.

А теперь прислушайтесь к своим мыслям в Twitter, Linkedin и Github !!

Согласны или не согласны с идеями и примерами Саурав Сингла? Хотите рассказать нам свою историю?

Он открыт для конструктивной обратной связи - если у вас есть дополнительные идеи для этого анализа, прокомментируйте их ниже или свяжитесь с нами !!

Твитните @ SauravSingla_08, комментарий Saurav_Singla и звезду SauravSingla прямо сейчас!