Отказ от ответственности: это примечания к уроку Вероятностная часть сигмовидного нейрона (курс PadhAI onefourthlabs Первый курс по глубокому обучению)

  1. Для любого события A P(A ≥ 0 всегда вероятность любого события лежит между 0 и 1.
  2. Если A1,A2,A3,…..An не пересекаются (непересекающиеся означает Ai∩Aj = Ø ∀i≠j)
  3. Вероятность объединения всех событий i = Сумма всех отдельных вероятностей событий i.
  4. Если Ω — универсальное множество (множество, содержащее все множества)
  5. P(Ω) = 1 (вероятность универсального набора)

Пример:

Предположим, учащийся получает S возможных оценок по курсу: A,B,C.

P (класс = A), P (класс = B), P (класс = C)

На самом деле в этом случае обычно вероятности рассчитываются как (количество оценок «отлично»)/(общее количество учащихся)

На самом деле, когда речь идет о студентах, у нас может быть множество свойств, связанных, например, с оценками, ростом, возрастом.

Случайная переменная:

Случайная переменная — это функция, которая сопоставляет каждый результат Ω со значением.

В примере с учащимися G (или fgrade) каждому учащемуся в Ω сопоставляется значение: A, B или C.

Событие Grade = A является сокращением от события {w ∈ Ω: Fgrade=A }.

На самом деле здесь мы можем взять проект capstone в качестве примера: у нас есть куча изображений, и нам нужно решить, есть ли в нем текст или нет текста.

Поэтому мы инициализируем папку со всеми изображениями.

И если мы применим эту случайную переменную, называемую классом, к каждому изображению ниже.

О чем говорит случайная переменная, так это о том, что она берет все элементы, то есть каждый элемент в наборе, и классифицирует его как Text или noText(1 или 0).

Теперь мы можем вычислить P(class = 0) [это краткий пример вышеприведенного применения случайной переменной к изображению и определения, есть текст или нет]

Случайная величина может принимать либо непрерывные значения, например, рост и вес, такие как рост в диапазоне от 120 до 200 см, а вес в диапазоне от 120 до 45 кг, либо они могут принимать дискретные значения. strong> похожи на оценки, поскольку они варьируются от A, B, C или D.

Здесь мы в основном фокусируемся на дискретной случайной величине, например: Оценки (от A до c), Рейтинг (от 1 до 5), Гласные (от a до u).

Распределение: (предельное распределение):

Пусть случайной величиной будет A, B, C, а распределение оценок G приведено в таблице ниже, которую мы называем распределением (предельное распределение).

Укажите маргинальное распределение над G, что означает Указание P(G=g) ∀ g ∈ A,B,C

Мы компактно обозначаем маргинальное распределение через P(G).

Возьмем мешок с шариками R(красный) G(зеленый) B(синий) цветов.

Таким образом, из этой вероятности мяч будет красным (Количество красных шаров/Общее количество шаров.)

В противном случае вероятности R, G, B равны 0,25, 0,4, 0,35.

Если вы позволите своему другу заглянуть в (мешок) заработать шары для покрытия, он каким-то образом угадает, оценив их и угадав вероятность, когда ему разрешат заглянуть в него один раз и попросят оценить вероятности каждого

Следовательно, Tat — это прогнозируемая вероятность y hat.

Мы можем прямо сказать, что он работает в угадывании, но мы хотим сказать, насколько он ошибался в предсказании.

Затем вы можете обработать y и yhatвычислить потери квадратной ошибки.

Определенное событие:

Вероятность события, если есть уверенность в том, что оно произойдет, называется достоверным событием, а вероятность события равна 1.

Если в матче сыграют A,B,C,D, то A выиграл.

Если кто-то придет внезапно, у вас есть другой случай, когда в следующем матче вы можете сказать, что я наблюдаю за матчем с 1 часа или около того, вероятность победы A составляет 0,6, а вероятность B - 0,2, C - 0,15 и D - 0,05.

Таким образом, мы можем сказать по-разному, вышеприведенное — это два разных способа сказать.

В контексте проекта Capstone нам будет предоставлено изображение с текстом. Основная задача состоит в том, чтобы сказать, содержит ли оно текст или нет, у класса есть только две возможности: текст или нет .

Что мы будем делать во время обучения, так это то, что мы будем использовать сигмовидную функцию, нам нужно вывести 1, если она содержит текст, и 0, если она не содержит текста. Мы получим на выходе ноль или что-то подобное

Предположим, изображение 30x30. Следовательно, 900 входов и, следовательно, 90 смещений.

Следовательно, если yhat = 0,7, это то, что мы получили.

Поэтому yhat = 0,7 — это распределение вероятности, и оно говорит о вероятности 0,7, что оно содержит текст, и (1–0,7) = 0,3 вероятности, что оно не содержит текста.

Если бы модель была идеальной, она возвратила бы 1 при наличии текста и 0 при отсутствии текста.

Теперь используйте потери квадратной ошибки, или мы будем использовать Потери перекрестной энтропии, которые более обоснованы для вероятности.

Это все для бинарной классификации. Всякий раз, когда дело доходит до мультиклассовой классификации, это выглядит следующим образом:

Все слово разделено на все отдельные буквы. ПОСЛЕ выбора каждый из них проверяется с помощью 6 алфавитов на английском языке и сопоставляется.

Распределение вероятностей выглядит так, как показано ниже для каждой буквы: пусть буква будет 'm'. Тогда все вероятности других букв будут равны нулю, а вероятность только буквы 'm' будет равна единице.

Это 1-горячий вектор, в котором только одна запись равна 1, а все остальные равны нулю.

Таким образом, вероятность играет важную роль в построении модели глубокого обучения.

Это небольшая попытка, загрузка заметок. Я верю в то, что «обмен знаниями — это лучший способ развития навыков». Буду признателен за комментарии. Могут быть предложены даже небольшие правки.

Каждые аплодисменты будут большим стимулом.

Подпишитесь на мою среду, чтобы получать больше обновлений……