Публикации по теме 'q-learning'


Искусственный интеллект: 6. Q Learning и SARS в Maze в OpenAI
Код: GitRepo Используемые гиперпараметры: - Скорость обучения - Учетная ставка - Скорость исследования Скорость обучения [0, 1]: Скорость обучения — это скорость обучения или количество информации, которую мы переносим из текущей итерации в Q-таблицу. Ставка скидки [0, 1]: Ставка дисконтирования — это сумма скидки, которую мы даем q’(s’, a’) во время правила обновления. Скорость исследования [0, 1]: Обычно мы должны предпринять максимально ценное действие в..

Использование Q-Learning для поиска оптимальной цены
Увеличение прибыли - одна из основных задач компании. Одна из стратегий для достижения этого - предложить справедливую и конкурентоспособную цену на ваши продукты или услуги, что приведет к увеличению спроса. Но как получить эту «оптимальную» цену, когда количество продаж и цена максимизируют прибыль? Ответ не так прост. Даже наличие цены на определенный момент времени не означает, что эта цена не изменится в будущем из-за рыночных условий. В этой статье мы исследуем использование..

Я изучил DQN на соревнованиях OpenAI
В апреле компания OpenAI провела двухмесячный конкурс под названием Ретро-конкурс , в ходе которого участники должны были разработать агента, способного хорошо работать на невидимых специально созданных сценах Sonic the Hedgehog . эм>. Агенты были ограничены 100 миллионами шагов на этапе и 12 часами времени на виртуальной машине с 6 ядрами E5–2690v3, 56 ГБ ОЗУ и одним графическим процессором K80. OpenAI предоставил три базовых агента: JERK (Just Enough Retained Knowledge), Rainbow..

Обучение с подкреплением, часть 6: TD (λ) и Q-обучение
Понимание Q-Learning в действии и на примере Добро пожаловать в мою серию статей об обучении с подкреплением! Теперь, когда мы рассмотрели строительные блоки, пришло время обсудить TD (λ) и Q-обучение. В этом посте я воспользуюсь простым примером, который поможет вам понять Q-обучение и ответит на следующие вопросы: Что такое TD (λ) и как он используется? Как работает классический внеполитический метод Q-Learning ? Как выглядит реализация Q-обучения в Python ? Если..

Как сопоставить оценку DeepMind Deep Q-Learning в Breakout
Как сопоставить оценку DeepMind Deep Q-Learning в Breakout Если вы так же увлечены Deep Q-Learning, как и я, но у вас никогда не было времени понять или реализовать его, это для вас: в одной записной книжке Jupyter я 1) кратко объясню, чем обучение с подкреплением отличается от обучения с учителем, 2) обсудите теорию, лежащую в основе Deep Q-Networks (DQN), рассказав вам, где вы найдете соответствующие объяснения в статьях и что они означают, и 3) как реализовать компоненты,..

ML 101: SARSA против Q-Learning
Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот . В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение. Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон,..

Основы обучения с подкреплением (с примером)
Машинное обучение предоставило различные формулировки для решения проблем. Обучение с подкреплением — это третья парадигма машинного обучения после обучения с учителем и без учителя. Здесь цель состоит в том, чтобы развиваться и учиться на ошибках, и, в отличие от двух других парадигм, данные для этого в основном развиваются по мере их появления. Цитируя Kaelbling, LP в его обзорной статье 1996 года (Reinforcement Learning: A Survey): Обучение с подкреплением (RL) — это обучение..