Публикации по теме 'reinforcement-learning'
Основы обучения с подкреплением
Существует 3 основных типа машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением (RL). В этой краткой статье мы сосредоточимся на RL.
Что такое обучение с подкреплением?
RL — это метод машинного обучения, связанный с тем, как программные агенты должны выполнять действия в различных средах. Цель состоит в том, чтобы максимизировать большую часть или, по крайней мере, часть совокупного вознаграждения. Этот метод обычно учится путем непосредственного..
Все, что вам нужно знать об обучении с подкреплением
Фраза «обучение с подкреплением» поначалу может показаться немного пугающей, но когда мы разберем ее, на самом деле все довольно просто. Начнем с самой фразы. Что значит усилить? Нет, не гуглите уже! Я вам скажу. Это просто означает укреплять или поддерживать что-то. Таким образом, обучение с подкреплением будет означать усиление или поддержку определенного способа обучения. Позвольте мне уточнить.
Обучение с подкреплением — это одна из трех ветвей машинного обучения:
В..
Кодирование закона локального управления рандеву для многоагентных систем
В статье ниже я представил проблему Rendezvous сетевых систем управления:
Проблема рандеву для многоагентных систем В предыдущей статье я представил область сетевых систем управления на высоком уровне: medium.com
И в моей последней статье я подробно описал аналитическое решение для упрощенного случая N = 2 агентов и предположил, каким может быть решение для произвольно большого числа агентов (центроид ищет закон управления):..
Распределение портфеля: модель обучения с подкреплением (PPO), часть II
Нельзя сказать, что система контролируемого обучения учится управлять своим окружением, потому что она следует, а не влияет на получаемую поучительную информацию. Вместо того, чтобы пытаться заставить свою среду вести себя определенным образом, он пытается заставить себя вести себя в соответствии с инструкциями своей среды. [ Обучение с подкреплением: введение ]
Постановка задачи
Традиционные инвесторы отказываются от стратегии 60/40 акций/фиксированного дохода, чтобы..
Введение в мир обучения финансовому подкреплению: Часть 1 Скачать данные
Подробное руководство по торговле акциями с использованием FinRL
В этой серии мы покажем интегрированный процесс использования глубокого обучения с подкреплением для количественной торговли, ссылаясь на статью Практический подход к глубокому обучению с подкреплением для торговли акциями [1].
Слова впереди
В последние годы обучение с подкреплением (RL) привлекло внимание людей удивительными достижениями. В 2016 году AlphaGo (от Google DeepMind) обыграла Ли Седоля, одного из..
Сравнение алгоритмов многорукого бандита в маркетинговых сценариях использования
A / B-тестирование - стандартный шаг в маркетинговом процессе многих компаний, занимающихся электронной коммерцией. С помощью хорошо разработанных A / B-тестов маркетологи могут получить представление о том, где и как максимизировать свои маркетинговые усилия и провести успешную кампанию. Однако с практической точки зрения стандартные A / B-тесты оставляют деньги на столе по сравнению с более продвинутыми подходами к машинному обучению.
В этом посте мы обсудим текущее состояние A /..
Выявление недобросовестного или небезопасного ИИ с помощью графических критериев
Как использовать диаграммы причинно-следственных связей, чтобы распознать скрытые стимулы, формирующие поведение агента ИИ
Справедливость и безопасность продвинутых систем машинного обучения вызывают законные опасения. Чтобы устранить корень проблемы, исследователи могут проанализировать стимулы, создаваемые алгоритмом обучения, с помощью диаграмм причинно-следственных связей (CID). Среди прочего, компания DeepMind Safety Research написала о своем исследовании CID , и я уже писал ранее о..