Публикации по теме 'reinforcement-learning'


Unity — Обучение с подкреплением: часть 1
Если вы следите за исследованиями, то знаете, что обучение с подкреплением находится на подъеме с тех пор, как AlphaGo выиграла у всех чемпионов по го. «AlphaZero» (DeepMind) и «Hide & Seek» (OpenAI) — несколько недавних примеров достижений в обучении с подкреплением. С помощью этой серии постов вы будете внедрять обучение с подкреплением (RL) с нуля. Во-первых, нам нужно определить компоненты для любой настройки RL. Существует среда и агент . Они взаимодействуют через «..

Вводное практическое занятие по обучению с подкреплением
Обучение с подкреплением (RL) — это один из подходов к созданию искусственного интеллекта путем обучения машины (известной как «агент») выполнять задачи без явного указания ей, как это сделать. Основная идея заключается в том, что агент взаимодействует со своим окружением, совершая действия, за которые ему дается некоторое вознаграждение. Цель состоит в том, чтобы научить агента максимизировать значение вознаграждения. Обучение с подкреплением особенно интересно, потому что оно..

Еженедельный обзор статей по обучению с подкреплением №4
Каждый понедельник я представляю 4 публикации из моей области исследований. Давай обсудим их! [ ← Предыдущий отзыв ] [ Следующий отзыв → ] Памяти Андреаса. Документ 1: О роли планирования в моделировании глубокого обучения с подкреплением Хамрик, Дж. Б., Фризен, А. Л., Бехбахани, Ф., Гез, А., Виола, Ф., Уизерспун, С.,… и Вебер, Т. (2020). О роли планирования в моделировании глубокого обучения с подкреплением . Препринт arXiv arXiv: 2011.04021 . Каков вклад планирования в..

Рекомендательные системы, использующие LinUCB: контекстный подход многорукого бандита
Рекомендательные системы Рекомендательные системы с использованием LinUCB: контекстный подход многорукого бандита Анализ контекстного подхода многорукого бандита к рекомендательным системам с использованием непересекающегося алгоритма LinUCB для максимального взаимодействия с пользователем Что такое проблема многоруких бандитов? Проблема многорукого бандита, по сути, представляет собой просто повторное испытание, в котором пользователь имеет фиксированное количество вариантов..

Обучение с подкреплением: всестороннее введение [Часть 0]
Думайте об этой серии как о журнале любопытного специалиста по машинному обучению, который хочет изучить и освоить обучение с подкреплением. Примечание: эта статья изначально была размещена на веб-сайте Луки Палмьери по адресу https://www.lpalmieri.com/posts/rl-introduction-00/ и была размещена здесь с его разрешения. Этот пост является частью серии из трех статей, посвященных обучению с подкреплением, которые мы настоятельно рекомендуем вам прочитать! Возможно, вы уже устали слышать..

Очень простое объяснение машинного обучения для начинающих
Вот краткое руководство о том, как начать работу с машинным обучением. Я не буду вдаваться в сложный код. Я просто предполагаю, что у вас есть некоторые знания в области кодирования, такие как if..else..for..while :) :) Давайте начнем. Что такое машинное обучение? Проще говоря, это процесс обучения машины, как мы учим маленького ребенка, Разнообразие примеров, Много тренировок, то есть повторение одних и тех же вещей снова и снова Тренировки с реальными вещами, которые мы хотим,..

Понимание практического опыта обучения с подкреплением: марковские процессы принятия решений
Описание и понимание сложных сред, по одной диаграмме за раз Ссылки на серию: "Вступление" Многорукие бандиты | "Ноутбук" Нестационарный | "Ноутбук" Марковские процессы принятия решений | "Ноутбук" Уравнение Беллмана ч. 1 Добро пожаловать в нашу серию статей об обучении с подкреплением. Это четвертая запись, поэтому мы рекомендуем вам вернуться к предыдущим статьям, поскольку мы продолжим работу с ними. Ранее мы говорили о довольно простой ситуации под..