Публикации по теме 'reinforcement-learning'


Глубокое обучение с подкреплением: DQN, Double DQN, Dueling DQN, Noisy DQN и DQN с приоритетом…
Абстрактный В этой статье блога мы обсудим глубокое Q-обучение и четыре его наиболее важных дополнения. Double DQN, Dueling DQN, Noisy DQN и DQN с приоритетным воспроизведением опыта - это четыре дополнения, каждое из которых обрабатывает разные аспекты агента. агент имеет разные аспекты, такие как его разум, опыт, который он получает от окружающей среды, и ее исследование (изучение новых вещей независимо от того, что было изучено). Каждый из упомянутых подходов учитывает один из этих..

Научитесь планировать общение между кооперативными агентами
Новая архитектура для планирования связи в многоагентных средах Вступление В многоагентных средах один из способов ускорить эффект координации - дать возможность нескольким агентам взаимодействовать друг с другом распределенным образом и вести себя как группа. В этой статье мы обсуждаем структуру многоагентного обучения с подкреплением, называемую SchedNet, предложенную Кимом и др. В ICLR 2019, в которой агенты учатся планировать общение, как кодировать сообщения и как действовать в..

Решение Racetrack в обучении с подкреплением с использованием управления Монте-Карло
В этом сообщении блога мы подробно и пошагово решим проблему ипподрома в обучении с подкреплением. Постановка задачи Во-первых, давайте разберемся, в чем проблема. Рассмотрите возможность вождения гоночного автомобиля по гоночным трассам, подобным показанным на рисунке ниже. На нашей упрощенной гоночной трассе автомобиль находится в одном из дискретных наборов позиций сетки, ячеек на диаграмме. Скорость также дискретная, количество ячеек сетки перемещается по горизонтали и..

Машинное обучение похоже на секс в старшей школе.
Яш Баджадж | LinkedIn Опытный разработчик Salesforce и машинного обучения с продемонстрированной историей работы с информацией… www.linkedin.com Машинное обучение похоже на секс в старшей школе. Все говорят об этом, некоторые знают, что делать, и только ваш учитель делает это. Если вы когда-нибудь пробовали читать статьи о машинном обучении в Интернете, скорее всего, вы встречали их два типа: толстые академические трилогии,..

Обучение с подкреплением для классификации отношений на основе зашумленных данных
Этот пост в блоге направлен на объяснение документа https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/17151/16140 на высоком уровне. Классификация отношений. Учитывая предложение и две сущности, которые присутствуют в предложении, извлеките связь между ними, как указано в предложении. Например, если предложение «Обама родился в Соединенных Штатах», а объектами являются Обама и Соединенные Штаты, тогда отношение будет «Рожденный в Соединенных Штатах». Предыдущие..

Учимся на примерах: Монте-Карло
Представленный здесь код помогает понять обсуждаемые идеи. Поэтому, возможно, я удалил некоторые детали реализации. Полный код можно найти в моем репозитории GitHub . Учимся на примерах. Методы DP, обсуждавшиеся ранее , используют модель распределения для вычисления функции оптимального значения и оптимальной политики. В этом посте мы покончим с такими моделями. Во многих приложениях легче получить образцы взаимодействий агента и среды, чем точную модель, отражающую динамику..

Глубокое Q-обучение для игры в Space Invaders
В моей последней статье мы говорили о Q-обучении, где у нас были Q-таблицы, которые отображали максимально возможное вознаграждение за каждое действие в каждом состоянии. Но у этого метода есть серьезные проблемы. Проблема в том, что большинство задач имеют миллионы или миллиарды состояний, и каждая из них имеет миллионы или миллиарды возможных действий, и отображение всего этого в Q-таблице просто неэффективно. Поэтому Q-обучение неэффективно для большинства задач. Мы можем..