Публикации по теме 'reinforcement-learning'


Виртуализация крупнейшего в Китае онлайн-рынка для обучения с подкреплением
Эта статья является частью серии Academic Alibaba и взята из статьи под названием Virtual-Taobao: виртуализация реальной среды онлайн-торговли для обучения с подкреплением . авторы Цзин-Чэн Ши, Ян Ю, Цин Да, Ши-Юн Чен и Ань-Сян Цзэн. Полностью статью можно прочитать здесь . Методы обучения с подкреплением предлагают огромный потенциал для сложных пользовательских сред, но их трудно применять во многих реальных условиях, поскольку они требуют обучения в реальной системе. Это..

Обучение с подкреплением и исследование методом случайной дистилляции сети
С тех пор, как DeepMind в 2013 году разработала основополагающую работу DQN, в которой агент успешно научился играть в игры Atari на уровне выше, чем средний человеческий, обучение с подкреплением (RL) часто появлялось в заголовках. От игр Atari до робототехники и поразительного поражения чемпиона мира по го Ли-Седола от AlphaGo, казалось, что RL вот-вот захватит мир штурмом. На самом деле, хотя большинство игр Atari теперь можно изучать с очень хорошими результатами, в некоторых играх до..

Алгоритмы машинного обучения: 4 типа, которые вы должны знать
Машинное обучение прошло долгий путь от научной фантастики до надежного и разнообразного бизнес-инструмента, усиливающего несколько элементов бизнес-операций. На самом деле его влияние на эффективность бизнеса может быть настолько велико, что сегодня внедрение алгоритмов машинного обучения необходимо для поддержания конкурентоспособности в современных условиях независимо от сферы деятельности. Тем не менее, несмотря на то, что шумиха о машинном обучении постоянно высока, а уровень его..

TF Jam с ML-агентами 🤖
Эта статья об обучении модели машинного обучения в Unity3D с помощью ML-Agents Toolkit . Это похоже на неофициальный пост, следующий за исходным постом Эйба Хаскинса ( Twitter , Github ) TF-Jam - Shooting Hoops with Machine Learning . Итак, прежде всего, большое спасибо Эйбу Хаскинсу за то, что он сделал все это возможным 👏 и прочтите оригинальную статью, чтобы получить много справочной информации! Мотивация Целью этого проекта было расширение исходного проекта TF-Jam за..

Марковское свойство, цепочка, процесс вознаграждения и процесс принятия решений
Как было показано в предыдущей статье, теперь мы знаем общую концепцию обучения с подкреплением. Но как мы на самом деле подходим к решению нашей третьей задачи: «Временное назначение кредита» ? Примечание. Это репост моего исходного сообщения в моем блоге https://xaviergeerinck.com/markov-property-chain-reward-decision , который включает поддержку LaTeX для лучшего представления математических символов. Чтобы решить эту проблему, нам сначала нужно представить обобщение наших..

Еженедельный обзор статей по обучению с подкреплением № 10
[ ← Предыдущий отзыв ] [ Следующий отзыв → ] Документ 1: Обучение с подкреплением, обусловленное распределением, для политик общего назначения Насириани С., Понг В. Х., Наир А., Хазацкий А., Берсет Г. и Левин С. (2021). Disco rl: обучение с подкреплением с распределением для универсальных политик . Препринт arXiv arXiv: 2104.11707 . Обучение с подкреплением, обусловленное целями, состоит из включения цели в политические аргументы. Например, представьте руку робота и куб,..

Масштабирование значений вознаграждения для улучшения глубокого обучения с подкреплением
Глубокое обучение с подкреплением включает использование нейронной сети в качестве универсального аппроксиматора функций для изучения функции ценности, которая сопоставляет пары состояние-действие с их ожидаемым будущим вознаграждением с учетом конкретной функции вознаграждения. Это можно сделать разными способами. Например, алгоритм, основанный на методе Монте-Карло, будет отслеживать общее вознаграждение за пары состояние-действие из полного эпизода, чтобы построить обучающие данные для..