Публикации по теме 'upper-confidence-bound'


Верхняя граница достоверности для задачи о многоруких бандитах
Верхняя граница достоверности для задачи о многоруких бандитах В этой статье мы обсудим верхнюю доверительную границу и этапы ее алгоритма. Как мы видели в статье Задача многоруких бандитов , у нас есть 5 или более игровых автоматов, в которых мы ставим свои деньги таким образом, чтобы наша прибыль была максимальной. Каждая машина имеет свое распределение, по которому определяется ваша прибыль. Мы сбалансированно используем комбинацию методов разведки и эксплуатации, чтобы..

Реализация алгоритма верхней доверительной границы
Реализация алгоритма верхней доверительной границы В этой статье мы покажем, как работает алгоритм UCB для задачи о многоруком бандите. Алгоритм UCB в двух словах В алгоритме UCB мы начинаем исследовать все машины на начальном этапе, а позже, когда мы находим машину с наивысшей долей вероятности, мы начинаем использовать ее, чтобы получить максимальное вознаграждение. Если вы хотите лучше понять это, вы можете увидеть Верхнюю границу достоверности для проблемы многоруких бандитов..