Публикации по теме 'reinforcement-learning'
Обучение с подкреплением на основе политик, простой способ
Пошаговый подход к пониманию основанных на политике методов в обучении с подкреплением
Обновление : если вы новичок в этой теме, возможно, вам будет проще начать со статьи Политика обучения с подкреплением для разработчиков .
Вступление
Предположим, вы находитесь в новом городе, у вас нет ни карты, ни GPS, и вам нужно добраться до центра. Вы можете попробовать оценить свое текущее положение относительно пункта назначения, а также эффективность (ценность) каждого выбранного вами..
Табличный агент Q-обучения против иррационального агента в игре крестики-нолики
В предыдущих руководствах я описал, как смоделировать крестики-нолики как задачу обучения с подкреплением (RL) и как реализовать игру на Python. Подробнее об этих темах см. ниже:
Крестики-нолики как задача обучения с подкреплением Введение levelup.gitconnected.com
Настройка крестиков-ноликов для обучения с подкреплением в Python В моей предыдущей статье на Medium… levelup.gitconnected.com..
Что такое обучение с подкреплением?
Глубокое обучение с подкреплением (DRL) — это область машинного обучения, в которой используются модели глубокого обучения (т. е. нейронные сети) в задачах обучения с подкреплением (RL) (определение будет приведено в разделе 1.2). В классификации изображений у нас есть набор изображений, которые соответствуют набору дискретных категорий, таких как изображения разных видов животных, и мы хотим, чтобы модель машинного обучения интерпретировала изображение и классифицировала вид животного на..
West 2021 Highlight Videos, Reinforcement Learning, обязательные навыки визуализации данных и вакансии
Лучший выбор ODSC West 2021: 11 наших любимых сессий для бесплатного просмотра
Посетите эту страницу, чтобы увидеть лучшие видеоролики ODSC West 2021, которые нам понравились и иллюстрируют актуальные темы в науке о данных.
Обучение с подкреплением для всех: OpenAI Gym и Ray
Это практическое введение в создание и оптимизацию агентов обучения с подкреплением с использованием библиотек Open AI Gym и Ray Python.
Методы визуализации данных, которые необходимо знать..
Двигайтесь быстрее с машинным обучением
Гонщики ненавидят его за этот простой трюк
Есть соревнование по автономному вождению под названием F1десятая , которое имеет как физическую версию (в которой вам нужен физический автомобиль, масштаб 1/10), так и виртуальную , где любой может соревноваться. В этом сообщении блога мы сосредоточимся на виртуальной гонке, которая поставляется с gym -подобной средой под названием f1tenth_gym , которая выглядит следующим образом:
Да, я знаю — вы почти чувствуете запах горящей..
Дрессировка собак и машинное обучение действительно такие разные?
Дрессировка собак и машинное обучение имеют несколько общих черт. Оба предполагают использование обучения с подкреплением, которое представляет собой тип обучения, который включает в себя вознаграждение за желаемое поведение и наказание за нежелательное поведение.
Это может включать в себя угощение или похвалу собаки за желаемое поведение или использование наказания, такого как выговор или удаление лакомства, чтобы воспрепятствовать нежелательному поведению. Точно так же в машинном..
Обзор документов по обучению с подкреплением № 13
Представляю 4 публикации из области моих исследований: обучение с подкреплением. Давайте обсудим это!
[ ← Предыдущий отзыв ][ Следующий отзыв → ]
Документ 1: Освоение игр Atari с ограниченными данными
Йе, В., Лю, С., Курутах, Т., Аббил, П., и Гао, Ю. (2021). Освоение игр Atari с ограниченными данными . препринт arXiv arXiv:2111.00210 .
EfficientZero — это название, данное авторами своему новому алгоритму обучения с подкреплением. Что отличает его от многих других..