Публикации по теме 'reinforcement-learning'


Настройка среды такси для обучения с подкреплением (RL)
Среда «Такси» — это классическая задача обучения с подкреплением, в которой агенту необходимо перемещаться по небольшому сеточному миру, чтобы забирать и высаживать пассажиров в разных местах. Это простая среда, которая часто используется для демонстрации эффективности различных алгоритмов обучения с подкреплением.

Сергей Левин из Калифорнийского университета в Беркли говорит, что сочетание самоконтролируемого и автономного RL может позволить использовать алгоритмы…
Выражение «поступки говорят громче слов» впервые появилось в печати почти 300 лет назад. Новое исследование перекликается с этой точкой зрения, утверждая, что сочетание обучения с самостоятельным наблюдением и автономного обучения с подкреплением (RL) может привести к новому классу алгоритмов, которые понимают…

Необходимость CNN для повышения производительности глубокого RL
Обучение агентов Deep RL на входах большой размерности, таких как видео или аудио, было сложной задачей для обучения с подкреплением (RL). Успешные алгоритмы RL в значительной степени полагались на функции, которые приходилось генерировать вручную вместе с математическим представлением политики. Обнаружено, что представление политики зависит от способа представления функций. Было много достижений в области локализации изображений с использованием сетей, таких как сверточные нейронные..

Предотвращение оттока, как бандита
с моделированием роста, причинно-следственным выводом и выборкой Томпсона TL;DR; Настоящая цель - предотвратить отток, а не предсказать отток. Таким образом, мы прогнозируем эффект от лечения. Техника трансформированного результата полезна. Он изменяет метки в наборе данных таким образом, чтобы наша модель предсказывала рост. Обучение с подкреплением позволяет нам со временем совершенствоваться. Мы не начинаем с нуля. Мы используем исторические кампании для начальной..


Внедрение Deep Q-Network с помощью SONY NNabla
ЧТО ТАКОЕ ННАБЛА? SONY выпустила Библиотеки нейронных сетей , сокращенно NNabla . NNabla готова к работе с устройствами и имеет высокую скорость обучения с помощью графического процессора за счет эффективного управления памятью. Самая интересная особенность заключается в том, что NNabla по умолчанию позволяет определять как запускать, так и определять и запускать. Например, код стиля определения и запуска выглядит так, как показано ниже. # build static graph like tensorflow x =..

Изучение новых методов искусственного интеллекта для создания дорожных карт
Глубокое обучение с подкреплением может способствовать более тесному взаимодействию человека и машины Уже почти два года мы изучаем новый подход к нанесению на карту дорог на спутниковых снимках с помощью машинного обучения (ML). Глубокое обучение с подкреплением (RL) - это относительно новое подразделение машинного обучения, которое мы применяем для автономного дорожного картографирования. Вместо нынешнего подхода к классификации отдельных пикселей дороги и извлечению векторов дороги из..