Публикации по теме 'reinforcement-learning'
Робототехника и обучение с глубоким подкреплением в системах обработки нейронной информации (NeurIPS) 2020
Я изо всех сил старался впитать много контента на NeurIPs 2020, и это было так же подавляюще, как и прежде. Каждый принимает решение о том, на каком контенте они хотят сосредоточиться, и это всегда компромисс между исследованием ( изучением нового ) и эксплуатацией ( дальнейшее усвоение материала в вашей области знаний ). . Я решил сосредоточиться на своих областях знаний: обучение на основе моделей, RL и робототехника (я также потратил немало времени на общение, но это произошло между..
Хедж-фонд Man Group использует машинное обучение / обучение с подкреплением для финансовой торговли
Man Group использует ML (методы глубокого обучения и RL) для управления фондами.
Статья Man AHL ML дополнительно разъясняет, что они на самом деле делают: отслеживание тренда / сопоставление с образцом (глубокое обучение) и выполнение приказов (обучение с подкреплением (не для активной торговли , т.е. принятия решения, какой ценностью торговать), что функционально похоже на то, как JP Morgan использует RL ).
Обучение с подкреплением в настоящее время является одной из самых..
Математика алгоритма градиента политики объясняется реализацией PyTorch
Пошаговое объяснение алгоритма градиента политик RL и его реализации.
Оглавление
· Введение · Метод градиента политики ∘ Вывод ∘ Оптимизация ∘ Алгоритм · Реализация PyTorch ∘ Сети ∘ Цикл обучения (основной алгоритм) ∘ Результаты обучения · Заключение · Литература
Введение
Обучение с подкреплением (RL) — это подобласть ИИ, цель которой — позволить машинам учиться и улучшать свое поведение, взаимодействуя с окружающей средой и получая обратную..
Бизнес-приложения обучения с подкреплением
Примеры использования обучения с подкреплением в реальных предприятиях: системы рекомендаций, НЛП / чат-боты, оптимизация энергопотребления
Введение
С текущей настройкой насыщенности в методах глубокого обучения (DL) есть немало ожиданий, что подкрепление (RL) станет следующим большим достижением в AI.
Учитывая, что подходы, основанные на RL, можно применить к любой задаче оптимизации, его внедрение на предприятиях быстро набирает обороты.
RL относится к ветви искусственного..
Как автоматизировать ваши ордера в качестве инвестора «купи и держи»
Покупайте ежемесячно ниже средней цены с яхтой.
Как инвесторы, торгующие по принципу «купи и держи», мы не очень заинтересованы в краткосрочных колебаниях рынка. Обычно мы просто периодически покупаем какие-то определенные активы. Однако часто мы покупаем активы, когда они находятся на вершине цикла, потому что мы просто хотим заниматься ежемесячными финансами и не хотим тратить время на какой-либо технический анализ. Это…
Методы Монте-Карло для обучения с подкреплением
Введение
В этой статье мы обсудим методы Монте-Карло для обучения с подкреплением, которые являются одной из основополагающих концепций, лежащих в основе нашего понимания, когда мы изучаем более сложные темы и методы обучения с подкреплением.
Начнем с понимания значения термина «Монте-Карло». Монте-Карло — это общий термин, который часто используется для определения любого метода оценки, который включает значительный случайный компонент, однако в отношении обучения с подкреплением это..
Как учиться
«Я очень рано понял разницу между знанием названия чего-либо и знанием чего-либо».
― Ричард Фейнман
В этом сообщении блога я расскажу о самых популярных и широко используемых методах обучения систем машинного обучения. Я обсуждаю контролируемое обучение, неконтролируемое обучение и обучение с подкреплением с примерами каждого из них.
Алгоритмы машинного обучения обычно учатся, анализируя данные и делая выводы о том, какую модель или параметры должна иметь модель, или взаимодействуя..