Публикации по теме 'reinforcement-learning'


Обучение с подкреплением с нуля: проектирование и решение задачи в записной книжке Python
Часть 1: Определение среды, поиск оптимальной политики с помощью итераций значений и введение Q-Learning Резюме В этой статье я представлю новый проект, который пытается помочь тем, кто изучает обучение с подкреплением, путем полного определения и решения простой задачи в записной книжке Python. Среда и основные методы будут объяснены в этой статье, а весь код опубликован на Kaggle по ссылке ниже. Кроме того, я создал записную книжку «Мета», которую можно легко разветвлять и которая..

Как мы развернули наш самый первый алгоритм обучения с подкреплением
Рекомендация контента неизвестным/анонимным пользователям в масштабе Наша команда работает над улучшением здоровья и благосостояния миллионов нынешних клиентов и привлечением новых клиентов в будущем. Мобильное приложение имеет карусельную часть в нижней половине главной страницы, где могут отображаться динамические баннеры. Каждый баннер используется как форма информации, средство коммуникации или функция приложения. Это первая страница, которую видят все успешно зарегистрировавшиеся..

Продвинутые темы машинного обучения
Расширенные темы машинного обучения: изучение алгоритмов и методов, лежащих в основе современного ИИ Машинное обучение (ML) произвело революцию в том, как мы взаимодействуем с технологиями. Алгоритмы машинного обучения, от персональных рекомендаций на потоковых платформах до беспилотных автомобилей, лежат в основе многих приложений, которые мы используем каждый день. Однако по мере того, как ML становится все более распространенным, важно понимать сложные темы и методы, лежащие в основе..

Марковский процесс принятия решений: итерация значения с реализацией кода
В сегодняшней статье мы сосредоточимся на итерации ценности MDP на примере мира сетки из книги Artificial Intelligence A Modern Approach Стюарта Рассела и Питера Норвига. Код в этой истории является частью нашего проекта MAD с нуля , где MAD означает машинное обучение, искусственный интеллект и наука о данных . Полный код, использованный в этой истории, можно найти в этом репозитории: https://github.com/clumsyhandyman/mad-from-scratch . Оглавление: Пересмотреть итерацию..

4 способа улучшить впечатления от воспроизведения
Заставить агентов помнить о важных вещах Начиная вещи Воспроизведение опыта - важная часть внеполитического обучения. Это позволяет агентам получить максимальную отдачу от своих вложений, выжимая как можно больше информации из прошлого опыта. Тем не менее, единообразная выборка из воспроизведения оказалась ниже номинальной по сравнению с более сложными методами выборки. В этой статье мы обсуждаем четыре варианта воспроизведения опыта, каждый из которых может повысить надежность и..

Этот ИИ может сыграть 57 игр со сверхчеловеческой производительностью!
Этот ИИ может сыграть 57 игр со сверхчеловеческой производительностью! Обзор статьи DeepMind « Agent57: Превосходя эталонный тест Atari Human » Бадиа и др. Когда мы обучаем интеллектуальных агентов для конкретной игры, мы часто пытаемся добиться от нашего агента максимальной производительности в этой игре. Для этого мы обычно изменяем наш алгоритм обучения с подкреплением или нашу модель нейронной сети, добавляя некоторые игровые знания. Хотя этот подход дает лучшие тесты для..

Project Pendragon, часть 2: бот для обучения с подкреплением для Fate Grand Order
Project Pendragon, часть 2: бот для обучения с подкреплением для Fate Grand Order В своем предыдущем посте я описал бота, созданного мной для игры на мобильных телефонах Fate Grand Order (FGO) по прозвищу Pendragon . Ядро бота Pendragon - это три нейронные сети, две классические CNN и одна сиамская CNN. Выходные данные сетей используются ботом, чтобы решить, какую из пяти карт ему раздали в этот ход. В конце этого предыдущего поста я обсуждаю некоторые возможные следующие шаги, и..