Публикации по теме 'reinforcement-learning'


Поиск причин: Марковский процесс принятия решений
Это был 1978 год. Математик, посвятивший годы изучению Марковского процесса принятия решений (MDP), посетил Рональда Ховарда и поинтересовался его областью применения. Рональд был профессором Стэнфорда, написавшим учебник по MDP в 1960-х годах. Рональд ответил, что знает очень мало практических применений MDP и нашел только одно в своей карьере, которое он считает успешным. Математик расстроился. Затем они обсудили проблему больших требований к данным, налагаемых MDP. Это был 1978 год,..

Марковский процесс принятия решений (MDP) упрощен
MDP дает математическую формулировку задачи обучения с подкреплением Марковский процесс принятия решений (MDP) - это среда с марковскими состояниями; Марковские состояния удовлетворяют марковскому свойству : состояние содержит всю необходимую информацию из прошлого для предсказания будущего. Математически, Итак, если я говорю, что состояние S ‹t› является марковским, это означает, что оно имеет все важные представления окружающей среды из предыдущих состояний (что означает,..

ML 101: SARSA против Q-Learning
Два наиболее популярных алгоритма, используемых для обучения ИИ. для решения задач называются SARSA и Q-Learning. Если вы хотите увидеть детали их реализации, вы можете найти их на других сайтах, таких как этот . В этой статье вы увидите, чем они отличаются, и когда эта разница имеет значение. Представьте себе следующий сценарий. Вы и ваша вторая половинка живете в небольшой деревне под названием Смоллпорт. В эти выходные вы решили отправиться в путешествие из Смоллпорта в Литтлтон,..

10 реальных приложений обучения с подкреплением
Эта статья изначально была написана Дерриком Мвити и размещена в блоге Neptune . При обучении с подкреплением (RL) агенты обучаются работе с механизмом поощрения и наказания . Агент вознаграждается за правильные ходы и наказывается за неправильные. При этом агент пытается свести к минимуму неправильные ходы и максимизировать правильные. В этой статье мы рассмотрим некоторые из реальных приложений обучения с подкреплением. Применение в беспилотных автомобилях В..

Создание масштабируемой системы обучения в реальном времени
Онлайн или инкрементное машинное обучение - это подраздел машинного обучения, в котором мы сосредотачиваемся на постепенном обновлении модели, как только мы видим новый обучающий пример. Это отличается от более традиционного подхода к пакетному обучению, когда мы обучаем все наши данные за один раз. У онлайн-обучения есть несколько преимуществ, два наиболее важных из которых связаны с пространственной сложностью и скоростью. Обучение модели онлайн означает, что вам не нужно хранить в..

Введение в глубокое Q-обучение с помощью SynapticJS и ConvNetJS
Приложение для игры Connect 4 Полную статью в блоге Sicara читайте здесь . Легко приступите к обучению с подкреплением с помощью JavaScript , применив глубокое Q-обучение к простой игре: connect4 . Благодаря этому я построил свой первый ИИ ! Зачем подключать 4? Когда я решил узнать об обучении с подкреплением, я подумал, что могу начать с Generals.io . В конце концов, казалось довольно простым создать непревзойденный AI в Chess , Go и DOTA II . Как я мог не сделать то..

Введение в систему обучения с подкреплением DeepMind «Acme»
Введение в систему обучения с подкреплением DeepMind «Acme» Как внедрить RL-агентов с Acme Acme - это основанная на Python исследовательская платформа для обучения с подкреплением, исходный код которой был открыт DeepMind Google в 2020 году. Он был разработан для упрощения разработки новых агентов RL и ускорения исследований RL. Согласно их собственному заявлению, Acme ежедневно используется в DeepMind, который возглавляет исследования в области обучения с подкреплением и..