Публикации по теме 'reinforcement-learning'


Обучение с подкреплением - это не только для игр
Обучение с подкреплением (RL) приобретает плохую репутацию. Плохая репутация игрушечного машинного обучения и технологии искусственного интеллекта. Тот, которому нет места в кармане серьезных специалистов по данным или других исследователей. Скорее всего, он получил такую ​​плохую репутацию из-за все более тесной связи с играми и играми. Видите ли, в последние несколько лет исследователи продемонстрировали силу RL, используя такие игры, как Go или Atari Breakout. Убедительный пример мощи..

Построение DQN в PyTorch: балансировка полюса тележки с глубоким RL
СЕРИЯ НЕПРЕРЫВНОГО ОБУЧЕНИЯ Построение DQN в PyTorch: балансировка полюса тележки с глубоким RL Часть 3 из серии "Обучение с подкреплением" Вступление Привет, гики, добро пожаловать в часть 3 нашей серии статей по обучению с подкреплением. В последних двух блогах мы рассмотрели некоторые базовые концепции RL, а также изучили проблему многорукого бандита и методы ее решения. Этот блог будет немного длиннее, так как мы сначала изучим некоторые новые концепции, а затем применим..

Обучение искусственному интеллекту, чтобы узнать, как люди эффективно планируют
Использование обучения с подкреплением для построения когнитивной модели иерархических открытий Человеческое планирование иерархично. Планируете ли вы что-то простое, например, приготовление обеда, или что-то сложное, например, поездку за границу, мы обычно начинаем с грубого мысленного наброска целей, которых хотим достичь («поехать в Индию, а затем вернуться домой»). Затем этот набросок постепенно дорабатывается до подробной последовательности подцелей («забронировать билет на..

Введение в многорукий бандит
В теории вероятностей проблема многорукого бандита (иногда называемая N проблемой бандита ) - это проблема, в которой фиксированный ограниченный набор ресурсов должно быть распределено между конкурирующими (альтернативными) вариантами выбора таким образом, чтобы максимизировать их ожидаемую выгоду, когда свойства каждого выбора известны лишь частично во время распределения и могут стать лучше понятыми по прошествии времени или путем распределения ресурсов для выбора. Название..

Интервью с доктором Ричардом Саттоном: к 2030 году у нас могут быть сильные алгоритмы искусственного интеллекта.
Профессор Ричард Саттон считается одним из отцов-основателей современного компьютерного обучения с подкреплением. Он внес несколько значительных вкладов в эту область, в том числе изучение разницы во времени, методы градиента политики и архитектуру Dyna. Удивительно, но первая область, в которую обратил внимание доктор Саттон, даже не имела отношения к информатике. Он получил степень бакалавра психологии, а затем занялся информатикой. Однако он не думал, что это изменение..

Как мы попали в 1% лучших виртуальных трасс AWS DeepRacer
СЕРИЯ НЕПРЕРЫВНОГО ОБУЧЕНИЯ Как мы попали в 1% лучших виртуальных трасс AWS DeepRacer Часть 2/2 - Состав высокопроизводительной модели В предыдущем блоге мы впервые описали нашу мотивацию к участию в конкурсе AWS DeepRacer Virtual Circuit. Затем мы обрисовали в общих чертах три основных способа, с помощью которых можно обучать модели обучения с подкреплением (RL). Наконец, мы представили пошаговое руководство о том, как можно использовать настройку DeepRacer For Cloud (DRFC) для..

Обучение Обучение с подкреплением: УСИЛЕНИЕ с PyTorch!
Начало работы с градиентами политики Алгоритм REINFORCE - один из первых алгоритмов градиента политики в обучении с подкреплением и отличная отправная точка для перехода к более продвинутым подходам. Градиенты политики отличаются от алгоритмов Q-значения, потому что PG пытаются изучить параметризованную политику вместо оценки Q-значений пар состояние-действие. Таким образом, выход политики представлен как распределение вероятностей по действиям, а не как набор оценок Q-значения...