Публикации по теме 'reinforcement-learning'


Статьи для чтения об использовании уравнений Беллмана в обучении с подкреплением
SAUTE RL: почти наверняка безопасное обучение с подкреплением с использованием расширения состояния ( arXiv ) Автор: Айвар Сутла , Александр И. Коуэн-Риверс , Тахер Джафферджи , Зиян Ван , Дэвид Мгуни , Джун Ван , Хайтам Бу-Аммар . Вывод: удовлетворение требованиям безопасности почти наверняка (или с вероятностью один) может иметь решающее значение для развертывания обучения с подкреплением (RL) в реальных приложениях. Например, посадка и взлет самолета в идеале должны..

Распространенная ошибка при оценке системы рекомендаций
Предисловие Система рекомендаций — одно из самых ценных приложений в области машинного обучения. Теперь людям доступно слишком много информации, система рекомендаций играет ключевую роль в электронной коммерции, музыке, фильмах, новостях, видео, рекламе и т. д., помогая пользователям находить нужную информацию. Традиционное распознавание объектов изображения, распознавание эмоций на естественном языке, распознавание частей речи и т. д. требуют большого количества ручных аннотаций, в то..

Q-обучение для начинающих
Обучите ИИ решать проблемы с замерзшим озером Цель этой статьи – научить ИИ решать задачи в ❄️замерзшем озере с помощью обучения с подкреплением . Вместо того, чтобы читать статьи в Википедии и объяснять формулы, мы начнем с нуля и попытаемся самостоятельно воссоздать алгоритм 🤖Q-обучения . Мы не только поймем, как это работает , но и, что более важно, почему это работает : почему это было разработано таким образом? Каковы скрытые предположения, детали, которые никогда не..

Смешивание вещей: оптимизация смешивания жидкостей с помощью машинного обучения
Исследователи из Японии применяют подход, основанный на обучении с подкреплением, для изучения процесса перемешивания жидкости при ламинарном течении Смешивание жидкостей является важной частью нескольких промышленных процессов и химических реакций. Однако этот процесс часто основан на экспериментах методом проб и ошибок, а не на математической оптимизации. Хотя турбулентное перемешивание является эффективным, оно не всегда может поддерживаться и может повредить используемые..

Моделирование дизайна комиссии: часть 1
Следующей темой серии симуляторов Decon является проблема проектирования системы комиссионных. Допустим, оптовик предлагает трехдневную сделку по продаже 1000 туфель по 10 000 вон за пару. Продавцы, которые находят эту сделку привлекательной, размещают заказ и вносят депозит. Если сделка будет заключена с достаточным количеством покупателей (продавцов), покупатели получат определенное количество комиссионных баллов в зависимости от количества и времени их заказа. Если сделка..

Учебное пособие по оптимизации проксимальной политики (часть 2/2: потеря GAE и PPO)
Давайте напишем с нуля футбольного агента для обучения с подкреплением! Ссылка на часть 1: Учебное пособие по оптимизации проксимальной политики (часть 1: метод актер-критик) Добро пожаловать во вторую часть серии руководств по математике и программированию по обучению с подкреплением. В первой части этой серии статей мы увидели, как настроить Google Football Environment, а затем реализовали структуру модели актор-критик для взаимодействия с этой игровой средой и сбора..

Меня зовут Окудо, и я технический директор.
Меня зовут Окудо, я технический директор Datumix JP. Я хотел бы поделиться с вами некоторыми последними тенденциями, касающимися проблемы маршрутизации транспортных средств для работы водителей грузовиков и сотрудников службы доставки с использованием машинного обучения. В создании этой статьи мне помог Наката , который работает здесь по совместительству. Задача маршрутизации транспорта x Машинное обучение Я хотел бы познакомить вас с применением машинного обучения для доставки в сфере..