Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Робототехника и обучение с глубоким подкреплением в системах обработки нейронной информации (NeurIPS) 2020

Я изо всех сил старался впитать много контента на NeurIPs 2020, и это было так же подавляюще, как и прежде. Каждый принимает решение о том, на каком контенте они хотят сосредоточиться, и это всегда компромисс между исследованием ( изучением нового ) и эксплуатацией ( дальнейшее усвоение материала в вашей области знаний ). . Я решил сосредоточиться на своих областях знаний: обучение на основе моделей, RL и робототехника (я также потратил немало времени на общение, но это произошло между..

Хедж-фонд Man Group использует машинное обучение / обучение с подкреплением для финансовой торговли

Man Group использует ML (методы глубокого обучения и RL) для управления фондами. Статья Man AHL ML дополнительно разъясняет, что они на самом деле делают: отслеживание тренда / сопоставление с образцом (глубокое обучение) и выполнение приказов (обучение с подкреплением (не для активной торговли , т.е. принятия решения, какой ценностью торговать), что функционально похоже на то, как JP Morgan использует RL ). Обучение с подкреплением в настоящее время является одной из самых..

Математика алгоритма градиента политики объясняется реализацией PyTorch

Пошаговое объяснение алгоритма градиента политик RL и его реализации. Оглавление · Введение · Метод градиента политики ∘ Вывод ∘ Оптимизация ∘ Алгоритм · Реализация PyTorch ∘ Сети ∘ Цикл обучения (основной алгоритм) ∘ Результаты обучения · Заключение · Литература Введение Обучение с подкреплением (RL) — это подобласть ИИ, цель которой — позволить машинам учиться и улучшать свое поведение, взаимодействуя с окружающей средой и получая обратную..

Бизнес-приложения обучения с подкреплением

Примеры использования обучения с подкреплением в реальных предприятиях: системы рекомендаций, НЛП / чат-боты, оптимизация энергопотребления Введение С текущей настройкой насыщенности в методах глубокого обучения (DL) есть немало ожиданий, что подкрепление (RL) станет следующим большим достижением в AI. Учитывая, что подходы, основанные на RL, можно применить к любой задаче оптимизации, его внедрение на предприятиях быстро набирает обороты. RL относится к ветви искусственного..

Как автоматизировать ваши ордера в качестве инвестора «купи и держи»

Покупайте ежемесячно ниже средней цены с яхтой. Как инвесторы, торгующие по принципу «купи и держи», мы не очень заинтересованы в краткосрочных колебаниях рынка. Обычно мы просто периодически покупаем какие-то определенные активы. Однако часто мы покупаем активы, когда они находятся на вершине цикла, потому что мы просто хотим заниматься ежемесячными финансами и не хотим тратить время на какой-либо технический анализ. Это…

Методы Монте-Карло для обучения с подкреплением

Введение В этой статье мы обсудим методы Монте-Карло для обучения с подкреплением, которые являются одной из основополагающих концепций, лежащих в основе нашего понимания, когда мы изучаем более сложные темы и методы обучения с подкреплением. Начнем с понимания значения термина «Монте-Карло». Монте-Карло — это общий термин, который часто используется для определения любого метода оценки, который включает значительный случайный компонент, однако в отношении обучения с подкреплением это..

Как учиться

«Я очень рано понял разницу между знанием названия чего-либо и знанием чего-либо». ― Ричард Фейнман В этом сообщении блога я расскажу о самых популярных и широко используемых методах обучения систем машинного обучения. Я обсуждаю контролируемое обучение, неконтролируемое обучение и обучение с подкреплением с примерами каждого из них. Алгоритмы машинного обучения обычно учатся, анализируя данные и делая выводы о том, какую модель или параметры должна иметь модель, или взаимодействуя..