Публикации по теме 'q-learning'


Обучение с подкреплением: обучение с временной разницей — Часть 1
Со времени последних статей мы все больше и больше переходили от теории к практике. Последние две статьи о методах Монте-Карло использовались для решения проблемы прогнозирования и проблемы управления в обучении с подкреплением. Продолжая методы Монте-Карло, в этой статье мы рассмотрим другой метод, называемый Обучение по временной разнице (TD) . TD-обучение — центральная и новая идея обучения с подкреплением . Его можно рассматривать как комбинацию двух других основных..

Введение в глубокое Q-Learning
Недавно мне посчастливилось получить летнюю исследовательскую стипендию Data61 от CSIRO. Это первая из 2 частей, в которых подробно рассказывается о том, что я узнал, о выводах, к которым я пришел, и о некоторых ошибках, которые я сделал на этом пути. Я выбрал тему Машинное обучение для самоуправляемых автомобилей . Этот выпуск описывает Deep Q-Learning на базовом высокоуровневом примере. В следующем шаге рассматривается реализация, которая учит управлять имитируемым движением автомобиля..

Раскрытие возможностей Q-Learning: путешествие в краеугольный камень алгоритма обучения с подкреплением
Введение: Обучение с подкреплением стало мощной парадигмой искусственного интеллекта, позволяющей машинам изучать оптимальные политики принятия решений посредством взаимодействия с окружающей средой. В основе многих успешных приложений RL лежит Q-learning, краеугольный алгоритм, который произвел революцию в этой области. В этом исчерпывающем сообщении в блоге мы отправимся в путешествие в мир Q-learning, изучая его концепции, реализацию и реальные примеры в коде Python. Понимание..

Q-Learning: первый и главный алгоритм обучения с подкреплением
Введение При изучении обучения с подкреплением самый простой и простой алгоритм, который нужно знать, - это Q-Learning. Есть много терминов, связанных с RL, которые каждый должен знать для начала и понимать их. Q-Learning - это не только простой алгоритм, но и очень интересный, который можно применять для получения почти всех реальных решений. Прежде всего, мы должны знать, что «Q» в Q-Learning означает «качество». Он определяет действия, предпринимаемые нашим агентом, и помогает..

Повышение эффективности торговли за счет настройки гиперпараметров сети Deep Q
Торговля на фондовом рынке может быть сложным процессом, но с развитием ИИ и машинного обучения его можно вывести на новый уровень сложности. В этом сообщении блога мы рассмотрим, как улучшить классический торговый алгоритм с помощью глубокого обучения с подкреплением. Соединив Python и MQL5 с помощью сокетов, мы разработаем торговый алгоритм и реализуем сетевой агент глубокого Q, который будет постоянно изучать и оптимизировать гиперпараметры алгоритма. Эта комбинация приведет к созданию..

Использование AlphaGo Deep Q-Learning для обучения ловкости
Это рецензия на проект Deep RL, основанный на проекте NVidia с открытым исходным кодом jetson-reinforcement , разработанном Dustin Franklin . Цель проекта - создать агента DQN и определить функции вознаграждения, чтобы научить роботизированную руку выполнять две основные задачи: Прикоснитесь любой частью руки робота к интересующему объекту с точностью не менее 90%. Только основание захвата манипулятора должно касаться объекта с точностью не менее 80%. Настройка гиперпараметров..

OpenAI Gym: быстрый старт (с TensorFlow)
Эта статья предназначена для тех, кто знаком с самыми основами TensorFlow и хочет создать что-то интересное самостоятельно. На протяжении всей этой статьи мы пытаемся решить классическую задачу управления балансированием подвижного перевернутого маятника над тележкой. OpenAI Gym предоставляет нам среду, и все, что нам нужно сделать, это сосредоточиться на улучшении алгоритма обучения для решения проблемы. Чтобы установить Gym, выполните следующие действия:..