Публикации по теме 'reinforcement-learning'


Обучение с подкреплением на основе политик, простой способ
Пошаговый подход к пониманию основанных на политике методов в обучении с подкреплением Обновление : если вы новичок в этой теме, возможно, вам будет проще начать со статьи Политика обучения с подкреплением для разработчиков . Вступление Предположим, вы находитесь в новом городе, у вас нет ни карты, ни GPS, и вам нужно добраться до центра. Вы можете попробовать оценить свое текущее положение относительно пункта назначения, а также эффективность (ценность) каждого выбранного вами..

Табличный агент Q-обучения против иррационального агента в игре крестики-нолики
В предыдущих руководствах я описал, как смоделировать крестики-нолики как задачу обучения с подкреплением (RL) и как реализовать игру на Python. Подробнее об этих темах см. ниже: Крестики-нолики как задача обучения с подкреплением Введение levelup.gitconnected.com Настройка крестиков-ноликов для обучения с подкреплением в Python В моей предыдущей статье на Medium… levelup.gitconnected.com..

Что такое обучение с подкреплением?
Глубокое обучение с подкреплением (DRL) — это область машинного обучения, в которой используются модели глубокого обучения (т. е. нейронные сети) в задачах обучения с подкреплением (RL) (определение будет приведено в разделе 1.2). В классификации изображений у нас есть набор изображений, которые соответствуют набору дискретных категорий, таких как изображения разных видов животных, и мы хотим, чтобы модель машинного обучения интерпретировала изображение и классифицировала вид животного на..

West 2021 Highlight Videos, Reinforcement Learning, обязательные навыки визуализации данных и вакансии
Лучший выбор ODSC West 2021: 11 наших любимых сессий для бесплатного просмотра Посетите эту страницу, чтобы увидеть лучшие видеоролики ODSC West 2021, которые нам понравились и иллюстрируют актуальные темы в науке о данных. Обучение с подкреплением для всех: OpenAI Gym и Ray Это практическое введение в создание и оптимизацию агентов обучения с подкреплением с использованием библиотек Open AI Gym и Ray Python. Методы визуализации данных, которые необходимо знать..

Двигайтесь быстрее с машинным обучением
Гонщики ненавидят его за этот простой трюк Есть соревнование по автономному вождению под названием F1десятая , которое имеет как физическую версию (в которой вам нужен физический автомобиль, масштаб 1/10), так и виртуальную , где любой может соревноваться. В этом сообщении блога мы сосредоточимся на виртуальной гонке, которая поставляется с gym -подобной средой под названием f1tenth_gym , которая выглядит следующим образом: Да, я знаю — вы почти чувствуете запах горящей..

Дрессировка собак и машинное обучение действительно такие разные?
Дрессировка собак и машинное обучение имеют несколько общих черт. Оба предполагают использование обучения с подкреплением, которое представляет собой тип обучения, который включает в себя вознаграждение за желаемое поведение и наказание за нежелательное поведение. Это может включать в себя угощение или похвалу собаки за желаемое поведение или использование наказания, такого как выговор или удаление лакомства, чтобы воспрепятствовать нежелательному поведению. Точно так же в машинном..

Обзор документов по обучению с подкреплением № 13
Представляю 4 публикации из области моих исследований: обучение с подкреплением. Давайте обсудим это! [ ← Предыдущий отзыв ][ Следующий отзыв → ] Документ 1: Освоение игр Atari с ограниченными данными Йе, В., Лю, С., Курутах, Т., Аббил, П., и Гао, Ю. (2021). Освоение игр Atari с ограниченными данными . препринт arXiv arXiv:2111.00210 . EfficientZero — это название, данное авторами своему новому алгоритму обучения с подкреплением. Что отличает его от многих других..