Публикации по теме 'reinforcement-learning'


За пределами DQN / A3C: исследование углубленного обучения с подкреплением
Одна из моих любимых вещей в глубоком обучении с подкреплением заключается в том, что, в отличие от обучения с учителем, оно на самом деле действительно не хочет работать. Использование нейронной сети в проблеме компьютерного зрения может помочь вам на 80%. Использование нейронной сети в задаче RL, вероятно, взорвет что-нибудь перед вашим лицом - и каждый раз, когда вы попытаетесь, взорваться будет по-разному. Многие самые большие проблемы в RL вращаются вокруг двух вопросов: как..

DeepMind и IDSIA вводят симметрии в Black-Box MetaRL, чтобы улучшить его способность к обобщению
Новое исследование, проведенное командой DeepMind и Swiss AI Lab IDSIA, предлагает использовать симметрии из обучения на основе обратного распространения, чтобы повысить возможности мета-обобщения мета-обучающихся «черного ящика». Метаобучение с подкреплением (RL) — это метод, используемый для автоматического обнаружения новых алгоритмов RL на основе взаимодействий агентов с окружающей средой. Хотя подходы «черного ящика» в этой области относительно гибки, они изо всех сил пытаются..

Добро пожаловать в курс глубокого обучения с подкреплением, часть 1: DQN
В последние годы многие лаборатории искусственного интеллекта работают над изучением глубокого обучения с подкреплением (DRL), которое, как ожидается, станет основной технологией в будущем. Я также занимаюсь исследованиями DRL в университете Кейо. Здесь я напишу свой обзор недавних ДХО в следующих нескольких статьях. Все они предполагают, что у читателей есть базовые знания об обучении с подкреплением. В этой статье я представляю Deep Q-Network (DQN), который является первым методом..

Навигация в мир машинного обучения
С быстрым расширением машинного обучения как области исследований нелегко успевать за всем, что изобретается и открывается. Я создал график, который упростит понимание различий между типами систем машинного обучения. Полезно иметь в виду, что существует несколько способов (алгоритм машинного обучения) для решения конкретной проблемы. Обычно есть несколько подходящих алгоритмов, и вы обязаны определить, какой из алгоритмов является наилучшим в данных обстоятельствах его реализации...

Распределенное обучение с подкреплением - часть 1 (C51 и QR-DQN)
Мотивация Методы обучения с подкреплением на основе ценности, такие как DQN, пытаются смоделировать ожидание общей отдачи или ценности . То есть значение действия a в состоянии s описывает ожидаемую отдачу или дисконтированную сумму вознаграждений. , полученный с самого начала в этом состоянии, выбрав действие a, а затем следуя предписанной политике. Все переходы между состояниями, действия и вознаграждения, которые используются для расчета стоимости или долгосрочной..

Проблемы с многорукими бандитами и их варианты
С ростом количества приложений для круглосуточного распространения, разработанных Chappiebot Inc., нам нужен алгоритм для тестирования многих моделей с одной и той же целью, чтобы определить, какая из них является лучшей. Традиционный метод — A/B-тест. Однако замечено, что этот старомодный способ становится неэффективным в наш век больших данных. В этом блоге я расскажу о некоторых альтернативных методах. I. A/B-тестирование Прежде чем углубиться в альтернативные подходы, мы представим..

Обучение с подкреплением V.S. Обучение с учителем на финансовых рынках
Обучение с подкреплением V.S. Обучение с учителем на финансовых рынках Мое мнение о том, почему обучение с подкреплением превосходит контролируемое обучение, когда дело касается финансовых рынков. Мы все согласны с тем, что финансовые рынки лежат в основе нашей современной экономики и, несомненно, они предоставляют важные возможности для продажи и покупки таких активов, как облигации, акции, иностранная валюта и деривативы. Однако, чтобы получать прибыль от таких рынков, инвесторы..