Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Использование обучения с подкреплением в Python для обучения виртуальной машине избегать препятствий

Эксперимент в Q-обучении, нейронных сетях и Pygame. Я хотел бы построить самоуправляемую, самообучающуюся радиоуправляемую машину, которая могла бы перемещаться по моей квартире на максимальной скорости, не наезжая ни на что, особенно на моих кошек. Но прежде чем вытащить паяльник и напугать до смерти Echo и Bear, я решил, что лучше всего начать в виртуальной среде. Я многому научился из «Что такое обучение с подкреплением?» наблюдать, как мой Робокар умело перемещается по окружающей..

Основы машинного обучения — прямо и просто

… Соавтор — Сударшан Этот пост охватывает основные концепции машинного обучения и дает вам более четкое представление о его происхождении и различиях. Мы будем говорить о значении машинного обучения и широкой классификации различных методов машинного обучения. Но прежде чем мы коснемся машинного обучения, давайте разберемся с обучением и интеллектом. Что такое обучение и интеллект? Обучение – это приобретение знаний или навыков посредством опыта, изучения, наблюдения или..

Обучение с подкреплением: глубокое Q-обучение с играми Atari

В моем предыдущем посте Первый взгляд на обучение с подкреплением я попытался использовать обучение Deep Q для решения проблемы CartPole. В этом посте я продолжу изучать обучение Deep Q, но в контексте игр Atari. В 2013 году в статье команды Deepmind Игра в Atari с глубоким обучением с подкреплением (Mnih et. Al.) Была исследована идея использования Deep Q обучения в играх Atari. Цель состояла в том, чтобы представить модель глубокого обучения, которая могла бы иметь дело с..

Лучшие темы в Твиттере от специалистов по данным № 19

Каждую неделю мы анализируем самые обсуждаемые темы в Твиттере от влиятельных лиц в области науки о данных и искусственного интеллекта. Следующие темы, URL-адреса, ресурсы и твиты были автоматически извлечены с использованием метода моделирования тем, основанного на Sentence BERT, который мы улучшили, чтобы он соответствовал нашему варианту использования. Хотите узнать больше об используемой методологии? Перейдите к этой статье для получения более подробной информации и найдите коды в..

Моделирование дизайна комиссии: часть 2

Часть 1: Проектирование системы комиссии и внедрение среды моделирования Часть 2: Анализ результатов моделирования Давайте вернемся к нашей предыдущей статье «Моделирование поощрительного дизайна: какая система вознаграждения является наиболее подходящей?» . Мы узнали, что частота отзывов и уровни усилий менялись в соответствии с выбранным методом распределения вознаграждений. На этот раз мы увидим, завершаются ли сделки и как меняется время завершения в зависимости от выбранного..

Месяц машинного обучения: обучение с подкреплением

[В этом посте рассказывается о моем стремлении стать более современным в области глубокого обучения с подкреплением в виде резюме соответствующих концепций и статей. Любопытно, почему все эти посты связаны с днями месяца? Проверьте это объяснение здесь ] День 21: Основы обучения с подкреплением Это резюме не относится к какому-либо отдельному документу, а является результатом чтения нескольких источников и объединения их в общее понимание. Сначала немного важной терминологии. В..

Бумага QMIX разорвана: монотонная факторизация функции значений для глубокого многоагентного подкрепления…

StarCraft II используется как среда машинного обучения для исследований со времен BloodWar. Пару лет назад DeepMind выпустил pysc2, исследовательскую среду для StarCraft II, а позже, в 2019 году, Whiteson Oxford Research Lab с открытым исходным кодом SMAC , кооперативную многоагентную среду, основанную на pysc2 с кооперативной настройкой, что означает, что в этой среде несколько агенты сотрудничают для достижения общей цели. Эта среда отличается от среды, встроенной в pysc2: она..