Публикации по теме 'reinforcement-learning'


Обучение с подкреплением для обеспечения качества программного обеспечения
Обучение с подкреплением для обеспечения качества программного обеспечения Недавно я работал над проектом, в котором использовал обучение с подкреплением, чтобы научить агента выбирать характерные черты на изображении. Агент сработал достаточно хорошо и смог добиться невероятных результатов. Однако больше всего в этом упражнении меня впечатлило то, насколько хорошо агент помог мне разработать само приложение. Видите ли, когда я разрабатывал приложение и достигая определенных этапов,..

Основные моменты ICML 2020
37-е издание ICML (Международной конференции по машинному обучению) объявлено в сети. Я впервые приезжаю на это мероприятие и выбрал несколько работ, которые привлекли мое внимание. Оценка эффективности алгоритмов обучения с подкреплением . Целью данного исследования является преодоление ограничений типичной процедуры оценки, основанной на: -Настройке гиперпараметров каждого алгоритма; -Провести несколько проб с использованием параметров; -Сообщить о производительности… .и..

Автостопом по FinRL: система обучения с глубоким подкреплением для количественных финансов
FinRL - это глубокая библиотека RL, цель которой - предоставить основу для реализации количественного финансирования с помощью RL. Итак, в этом руководстве для начинающих мы начнем с компонентов обучения с подкреплением, структуры каталогов библиотеки, затем рассмотрим код, чтобы понять реализацию, и, наконец, обсудим другие учебные пособия, которые вы можете изучить с учетом вашего варианта использования. В этом сообщении в блоге предполагается, что вы знакомы с основами Обучение с..

Обучите «бессмертную» Flappy Bird с помощью обучения с подкреплением на Java
Лоскут или без клапана? Позвольте агенту ИИ решать. Flappy Bird - это мобильная игра, представленная в 2013 году, которая стала суперпопулярной благодаря простому способу игры (откидная / без-откидная). С развитием глубинного обучения (DL) и обучения с подкреплением (RL) мы теперь можем обучать агента ИИ управлять действиями Flappy Bird. Сегодня мы рассмотрим процесс создания агента ИИ с использованием Java. Для самой игры мы использовали простую игру Flappy Bird с открытым..

Абстрактивно-извлекающее обобщение текста с использованием обучения с подкреплением
Последовательное обучение (Seq2Seq) недавно использовалось для абстрактного и экстрактивного обобщения. Для нашего проекта мы разработали модель для создания сводок новостей с использованием набора данных BBC. Мы предлагаем новые модели Seq2Seq, основанные на контексте документа, с использованием RNN для абстрактного и экстрактивного обобщения. Интуитивно это похоже на мобильные приложения сводки новостей, в которых редакторы-люди переводят сводки новостей в сводки. Мы используем эту идею..

Результаты пряток OpenAI, взгляд на системы
Да, агенты обманули, но что это значит для системы? OpenAI выпустил фантастический материал о некоторых результатах, полученных в многоагентном симуляторе в прятки, в котором несколько укрывателей и множество искателей играют в популярную детскую игру. В симуляции были некоторые интересные аспекты, такие как инструменты (ящики, пандусы, стены), которые агенты могли использовать, чтобы помочь им в достижении своей цели - эффективного сокрытия / поиска. Однако более заметным..

Понимание Марковского процесса принятия решений (MDP)
На пути к повышению эффективности обучения агентов по обучению с подкреплением В этой статье мы обсудим цель, с помощью которой можно решить большинство проблем обучения с подкреплением (RL) - Марковский процесс принятия решений (MDP) - это математическая структура, используемая для моделирования проблем принятия решений, где результаты частично случайны. и частично управляемый. Мы обсудим MDP более подробно по мере прохождения статьи. По сути, мы собираемся описать проблему RL в..