Публикации по теме 'reinforcement-learning'


Основы обучения с подкреплением
Существует 3 основных типа машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением (RL). В этой краткой статье мы сосредоточимся на RL. Что такое обучение с подкреплением? RL — это метод машинного обучения, связанный с тем, как программные агенты должны выполнять действия в различных средах. Цель состоит в том, чтобы максимизировать большую часть или, по крайней мере, часть совокупного вознаграждения. Этот метод обычно учится путем непосредственного..

Все, что вам нужно знать об обучении с подкреплением
Фраза «обучение с подкреплением» поначалу может показаться немного пугающей, но когда мы разберем ее, на самом деле все довольно просто. Начнем с самой фразы. Что значит усилить? Нет, не гуглите уже! Я вам скажу. Это просто означает укреплять или поддерживать что-то. Таким образом, обучение с подкреплением будет означать усиление или поддержку определенного способа обучения. Позвольте мне уточнить. Обучение с подкреплением — это одна из трех ветвей машинного обучения: В..

Кодирование закона локального управления рандеву для многоагентных систем
В статье ниже я представил проблему Rendezvous сетевых систем управления: Проблема рандеву для многоагентных систем В предыдущей статье я представил область сетевых систем управления на высоком уровне: medium.com И в моей последней статье я подробно описал аналитическое решение для упрощенного случая N = 2 агентов и предположил, каким может быть решение для произвольно большого числа агентов (центроид ищет закон управления):..

Распределение портфеля: модель обучения с подкреплением (PPO), часть II
Нельзя сказать, что система контролируемого обучения учится управлять своим окружением, потому что она следует, а не влияет на получаемую поучительную информацию. Вместо того, чтобы пытаться заставить свою среду вести себя определенным образом, он пытается заставить себя вести себя в соответствии с инструкциями своей среды. [ Обучение с подкреплением: введение ] Постановка задачи Традиционные инвесторы отказываются от стратегии 60/40 акций/фиксированного дохода, чтобы..

Введение в мир обучения финансовому подкреплению: Часть 1 Скачать данные
Подробное руководство по торговле акциями с использованием FinRL В этой серии мы покажем интегрированный процесс использования глубокого обучения с подкреплением для количественной торговли, ссылаясь на статью Практический подход к глубокому обучению с подкреплением для торговли акциями [1]. Слова впереди В последние годы обучение с подкреплением (RL) привлекло внимание людей удивительными достижениями. В 2016 году AlphaGo (от Google DeepMind) обыграла Ли Седоля, одного из..

Сравнение алгоритмов многорукого бандита в маркетинговых сценариях использования
A / B-тестирование - стандартный шаг в маркетинговом процессе многих компаний, занимающихся электронной коммерцией. С помощью хорошо разработанных A / B-тестов маркетологи могут получить представление о том, где и как максимизировать свои маркетинговые усилия и провести успешную кампанию. Однако с практической точки зрения стандартные A / B-тесты оставляют деньги на столе по сравнению с более продвинутыми подходами к машинному обучению. В этом посте мы обсудим текущее состояние A /..

Выявление недобросовестного или небезопасного ИИ с помощью графических критериев
Как использовать диаграммы причинно-следственных связей, чтобы распознать скрытые стимулы, формирующие поведение агента ИИ Справедливость и безопасность продвинутых систем машинного обучения вызывают законные опасения. Чтобы устранить корень проблемы, исследователи могут проанализировать стимулы, создаваемые алгоритмом обучения, с помощью диаграмм причинно-следственных связей (CID). Среди прочего, компания DeepMind Safety Research написала о своем исследовании CID , и я уже писал ранее о..