Публикации по теме 'reinforcement-learning'


Обучение агентов ИИ путем словесного описания их деятельности
В этом посте представлен документ ICML 2021 Интерактивное обучение на основе описания деятельности . Авторы: Хан Нгуен, Дипендра Мисра, Роберт Шапир, Миро Дудик и Патрик Шафто. Если у вас нет времени читать сообщение, вот минутный обзор: Мотивация В интерактивном обучении обучающий агент общается с учителем, чтобы получить новые навыки или знания. Учебный эпизод обычно протекает следующим образом: Агент получает задачу (обычно указывается как языковой запрос ). Он..

Amazon углубляется в обучение с подкреплением
Прочитайте Статья Рональда Шмельцера в Forbes о шагах, которые Amazon предпринимает для расширения использования обучения с подкреплением : Обучение с подкреплением (RL) обычно применяется для решения игр и головоломок. От ранних приложений ИИ в шашках и шахматах до более поздних решений на основе RL, которые научились играть в некоторые из самых сложных игр, таких как Go, DOTA и многопользовательские игры, RL показал, что он может предложить значительную силу в решении некоторые из..

Знакомство с гигантским миром машинного обучения!
Вы когда-нибудь задумывались о том, как происходят прогнозы фондового рынка, как простое веб-приложение может пометить изображение как собака или кошка, просто загрузив изображение, или как Spotify автоматически воспроизводит интересующую вас песню? Слава вам, если вы уже пришли к выводу, что где-то машинное обучение играет роль. Если эти вопросы оставляют вас в очень запутанной ситуации, не о чем беспокоиться. Читайте до конца, мы надеемся, что вы сможете получить все ответы...

Обучение с подкреплением для комбинаторной оптимизации
Стратегии обучения для решения сложных задач оптимизации с использованием глубокого обучения с подкреплением и графических нейронных сетей. Почему так важна оптимизация? С самого зарождения человечества, миллионы лет назад, все инновации в технологиях и каждое изобретение, улучшающее нашу жизнь и нашу способность выживать и процветать на Земле, разрабатывались хитрыми умами разумных людей. От огня до колеса и от электричества до квантовой механики наше понимание мира и сложности..

Как сопоставить оценку DeepMind Deep Q-Learning в Breakout
Как сопоставить оценку DeepMind Deep Q-Learning в Breakout Если вы так же увлечены Deep Q-Learning, как и я, но у вас никогда не было времени понять или реализовать его, это для вас: в одной записной книжке Jupyter я 1) кратко объясню, чем обучение с подкреплением отличается от обучения с учителем, 2) обсудите теорию, лежащую в основе Deep Q-Networks (DQN), рассказав вам, где вы найдете соответствующие объяснения в статьях и что они означают, и 3) как реализовать компоненты,..

Что умеет машинное обучение?
Когда разработчики и менеджеры по продуктам впервые слышат о машинном обучении, они обычно хотят знать, чем это может им помочь. Какие проблемы можно решить с помощью машинного обучения, а какие нет? К счастью, блестящий Andrew Ng предлагает полезную эвристику: Все, что обычный человек может сделать за одну секунду размышления, мы, вероятно, сможем сейчас или вскоре автоматизировать с помощью ИИ. Это отличная отправная точка, но я рекомендую вам также ознакомиться с примерами..

Проект 3: Обучение двух агентов глубокого обучения игре в теннис
Введение Эта статья — мой отчет о работе, проделанной в рамках финального проекта программы Udacity по глубокому обучению с подкреплением наностепени. Мы работаем с теннисной средой для этого проекта. В этой среде два агента управляют ракетками, чтобы мяч отскакивал от сетки. Если агент перебрасывает мяч через сетку, он получает вознаграждение в размере +0,1. Если агент позволяет мячу коснуться земли или выбивает мяч за пределы игровой площадки, он получает вознаграждение в размере..