Публикации по теме 'reinforcement-learning'


Я изучил DQN на соревнованиях OpenAI
В апреле компания OpenAI провела двухмесячный конкурс под названием Ретро-конкурс , в ходе которого участники должны были разработать агента, способного хорошо работать на невидимых специально созданных сценах Sonic the Hedgehog . эм>. Агенты были ограничены 100 миллионами шагов на этапе и 12 часами времени на виртуальной машине с 6 ядрами E5–2690v3, 56 ГБ ОЗУ и одним графическим процессором K80. OpenAI предоставил три базовых агента: JERK (Just Enough Retained Knowledge), Rainbow..

Как создавать и решать задачи с несколькими агентами: обычная прогулка с RLlib и Tensorforce
Краткое руководство по определению проблемы с несколькими агентами и ее решению с помощью мощных библиотек обучения с подкреплением Мультиагентные системы есть везде. От летающей стаи птиц и волчьей стаи, охотящейся на оленей, до людей, управляющих автомобилями и торгующих акциями. Эти реальные проблемы познания связаны с взаимодействием нескольких интеллектуальных агентов друг с другом. Но что побуждает нас их изучать? Может, любопытство? Если бы только мы могли имитировать..

Обучение с подкреплением — часть 2
Часть 1 здесь . Основная идея: Получите обратную связь в виде вознаграждения. Полезность агента определяется функцией вознаграждения. Должен действовать так, чтобы максимизировать ожидаемое вознаграждение. Все обучение основано на наблюдаемых образцах результатов. По-прежнему предположим, что MDP: Новый поворот: мы не знаем T или R. то есть мы не знаем, какие состояния хороши или какие действия делать. Должны на самом деле попробовать действия и состояния, чтобы узнать..

CMU, Google и Калифорнийский университет в Беркли предлагают надежные предсказуемые политики контроля для агентов RL
Может ли слишком много информации помешать модели ИИ? Возьмем, к примеру, функцию удержания полосы движения автомобиля, на вход которой поступает камера с высоким разрешением, передающая миллионы бит информации в реальном времени. Для надежного функционирования модели требуется лишь часть этих данных, связанных с ориентацией транспортного средства. Учет дополнительных данных увеличивает вычислительную нагрузку, риск переобучения и опасность возникновения злонамеренных атак...

Обучение с подкреплением, часть 6: TD (λ) и Q-обучение
Понимание Q-Learning в действии и на примере Добро пожаловать в мою серию статей об обучении с подкреплением! Теперь, когда мы рассмотрели строительные блоки, пришло время обсудить TD (λ) и Q-обучение. В этом посте я воспользуюсь простым примером, который поможет вам понять Q-обучение и ответит на следующие вопросы: Что такое TD (λ) и как он используется? Как работает классический внеполитический метод Q-Learning ? Как выглядит реализация Q-обучения в Python ? Если..

Введение в глубокое обучение с подкреплением
Введение в глубокое обучение с подкреплением Краткое введение в одну из самых интересных областей искусственного интеллекта. Каждый живой вид стремится к счастью в жизни. Когда вы наказываете ребенка за его действия, он чувствует себя плохо и избегает делать то же самое. Если вы подарите ему улыбку или небольшой подарок, он поймет, что его действие уместно, и продолжит делать то же самое, чтобы снова получить вознаграждение. Тот же шаблон применим и к животным. Путем проб и..

МАШИННОЕ ОБУЧЕНИЕ ГЛАЗАМИ НАЧИНАЮЩЕГО
Прежде чем перейти к теме, давайте сначала рассмотрим формальное определение машинного обучения, взятое из Википедии. Машинное обучение (ML) - это научное исследование алгоритмов и статистических моделей, которые компьютерные системы используют для эффективного выполнения конкретной задачи без использования явных инструкций, вместо этого полагаясь на шаблоны и логические выводы ». Машинное обучение - это часть искусственного интеллекта (ИИ). Как написано в приведенном выше..