Публикации по теме 'reinforcement-learning'


Обучение с подкреплением
В предыдущих статьях я объяснил основное различие между контролируемым и неконтролируемым обучением, которое заключалось в наличии или отсутствии помеченных данных (учитель). В обучении с подкреплением (RF) нет руководителя, который сообщает алгоритму, было ли решение хорошим или плохим; вместо этого есть вознаграждение, которое сигнализирует алгоритму в направлении общего желаемого направления. Обучение с подкреплением, как область исследования, может быть выражено как пересечение..

Глубокое обучение с подкреплением. Вступление. Алгоритм Deep Q Network (DQN).
Глубокое обучение с подкреплением. Вступление. Алгоритм Deep Q Network (DQN). Введение в глубокое обучение с подкреплением 1. ВВЕДЕНИЕ Истоки глубокого обучения с подкреплением - это чистое обучение с подкреплением, где проблемы обычно формулируются как марковские процессы принятия решений (MDP). MDP состоит из набора состояний S и действий A. Переходы между состояниями выполняются с вероятностью перехода P, вознаграждением R и коэффициентом скидки гамма. Вероятность..

5 фреймворков для обучения с подкреплением на Python
Программирование собственной реализации обучения с подкреплением с нуля может потребовать много работы, но это не обязательно. Существует множество отличных, простых и бесплатных фреймворков, которые помогут вам начать работу за несколько минут. Существует множество стандартных библиотек для контролируемого и неконтролируемого машинного обучения, таких как Scikit-learn, XGBoost или даже Tensorflow, которые помогут вам начать работу в кратчайшие сроки, и вы можете найти множество..

Памятка по обучению с подкреплением
Заявление об ограничении ответственности: это незавершенный проект, возможны ошибки! Чтобы быстро восстановить свои знания в области обучения с подкреплением, я создал эту шпаргалку со всеми основными формулами и алгоритмами. Надеюсь, это может быть вам полезно. Полную версию pdf вы можете найти здесь , а репо здесь . Обновление 19.03.2018 . Переписал Сарсу, следуя алгоритму Саттона и Барто. Обновление 15 марта 2018 г. . Спасибо AlexandreBeaulne , который добавил..

Введение в обучение агентов Q-Table
Агент Q-table - это простой агент для обучения с подкреплением. Он использует таблицу значений, которая представляет вероятность получения награды в результате выполнения определенного действия в определенном состоянии игры. Агент обновляет таблицу во время игры - учится делать более эффективные ходы - и использует стол для принятия решения о своем следующем ходе. Давайте рассмотрим пример использования Letter Noose (также известного как Hangman * ). Эта игра дает вам 6 шансов угадать..

Что такое машинное обучение в Интернете?
В начале своей карьеры мне посчастливилось работать в подразделе машинного обучения, известном как онлайн-обучение (также известном как инкрементальное или внеплановое обучение . базовое обучение ). По сравнению с «традиционными» решениями машинного обучения онлайн-обучение - это принципиально другой подход, который учитывает тот факт, что учебная среда может (и меняет) изменяться от секунды к секунде. Это сложно сделать правильно, но при правильном применении результаты, которых вы..

Заметки с первого семинара OpenAI по глубокому обучению с подкреплением
На прошлой неделе у меня была возможность посетить первый семинар и хакатон OpenAI для Spinning Up. Семинар проводил один из моих героев и ведущий исследователь глубокого обучения с подкреплением, Джош Ачиам . Первая половина воркшопа касалась основ глубокого обучения с подкреплением. Часть 2, представленная Джошем Ачиамом. После этого у нас был краткий разговор об обучении ловкости, представленный Matthias Plappert из команды робототехники OpenAI. Затем у нас был еще один..