Раздел обзора
- считайте это разминкой
- основы вероятности, правило Байеса
- Простые задачи на упражнения
- Оценка максимального правдоподобия
- оценить частотность против байесовской
- Предельные распределения: p(A), p(B)
- Совместное распределение: p(A,B) → с этим расст. мы можем рассчитать все остальное
- Условное распределение: p(A|B), p(B|A)
В. Как можно найти предельное распределение с учетом сустава?
В. от условного к условному?
когда дело доходит до непрерывных случайных величин, p() теперь является плотностью вероятности (не вероятностью)
Пример
Предположим, мы хотим найти P(Купить|Страна)
предельные вероятности: p(страна)
- P(страна = MX) = 210/(210+550+320) = 0,19
- P(страна = Калифорния) = 320/(210+550+320) = 0,30
- P(страна = США) = 550/(210+550+320) = 0,51
Совместные вероятности
- P(T, CA) = 20/1080 = 0.019
- …
- вычислительная задача: очень маленькие числа! (например, 100^-500)
Условные вероятности
- P(T|CA) = 0.019/0.3 = 0.07
- …
Независимость
знание значения одной случайной величины ничего не говорит мне о другой
A⊥B тогда и только тогда, когда (и только тогда) P(A,B) = p(A)p(B)
Максимальная оценка правдоподобия
- Данные → Модель (параметры)
- Наша цель — найти наилучшие параметры, чтобы они максимально точно моделировали собранные вами данные.
- какое значение параметров максимизирует функцию правдоподобия
Логарифмическая вероятность
- Производную легче решить
- Для Бернулли это разрешимо в обе стороны.
- log() монотонно увеличивается
- A›B , log(A)›log(B)
Рейтинг кликов
- Максимальная вероятность Бернулли не является теоретической
- Вероятность того, что пользователь нажмет на рекламу/ссылку
- Вероятность того, что пользователь купит продукт / подпишется на рассылку
- 0.2%~0.3%
- CTR = #кликов/#показов
- Коэффициент конверсии = #желаемое действие / #посещение страницы
Другие распределения с реальным значением
- т, эксп, гамма, …
- выбрать лучшее для ваших данных
- процесс выполнения MLE такой же
ссылки. Байесовское машинное обучение: A/B-тестирование и Python