Публикации по теме 'reinforcement-learning'


Как я планировал свои обеды с помощью обучения с подкреплением в рамках бюджета
После моей недавней статьи о применении обучения с подкреплением к реальным жизненным проблемам я решил продемонстрировать это на небольшом примере. Цель состоит в том, чтобы создать алгоритм, который может найти подходящий выбор продуктов питания в рамках бюджета и моих личных предпочтений. Я также разместил описание, данные и ядро ​​кода в Kaggle, и это можно найти здесь . Пожалуйста, дайте мне знать, если у вас есть какие-либо вопросы или предложения. Цель Когда вы..

Что такое обучение с подкреплением?
Обучение с подкреплением — это тип машинного обучения, который включает использование алгоритмов для обучения на последствиях своих действий. Он основан на идее, что агент, такой как робот или компьютерная программа, может научиться оптимизировать свое поведение, получая вознаграждение или наказание за свои действия. В системе обучения с подкреплением агент взаимодействует со своей средой, совершая действия и наблюдая за полученными наградами или наказаниями. Цель агента — изучить..

Обучение с подкреплением — Урок 1: Основы обучения с подкреплением
Проблема обучения с подкреплением Давайте представим, что вы впервые в новом городе, и ваша цель — найти лучший ресторан. У вас нет карты или интернета. Как бы вы подошли к поиску лучшего ресторана? Вы, вероятно, начнете исследовать город, пробовать разные рестораны и делать мысленные заметки о качестве каждого из них. Со временем вы начнете понимать, где расположены хорошие рестораны. Это аналогично проблеме обучения с подкреплением, когда агент (в данном случае вы) попадает в..

Управление на основе данных (на основе обучения с подкреплением)
Почему обучение с подкреплением является такой горячей темой для проблем оптимизации систем управления в целом Введение Управление на основе данных, особенно те, которые основаны на стратегиях управления обучением с подкреплением (RL), являются новым модным словом для промышленной инженерии. RL кажется идеальной парадигмой для решения всех проблем управления, от управления двигателями внутреннего сгорания до резки металла роботами-манипуляторами и системами кондиционирования воздуха..

Ключевые концепции современного обучения с подкреплением
Введение в обучение с подкреплением Фундаментальный уровень настройки обучения с подкреплением состоит из Агента, взаимодействующего со Средой в цикле обратной связи. Агент выбирает действие для каждого состояния в момент времени s_t среды на основе ответа, который он получил от среды в предыдущем состоянии в момент времени s_{t-1} . Исходя из этой базовой настройки, мы уже можем определить два основных компонента в настройке обучения с подкреплением: Агент и Среда . Когда..

Введение в модельно-ориентированное обучение с подкреплением
В этой статье я хочу дать введение в модельно-ориентированное обучение с подкреплением. Обсудите фундаментальную концепцию MB-RL, преимуществах этих методов и их приложений, а также о проблемах и трудностях, которые возникают при применении MB-RL к вашей проблеме. Мотивация В искусственном интеллекте (AI) последовательное принятие решений, обычно формализованное как MDP , является одной из ключевых задач. Обучение с подкреплением и Планирование - два успешных подхода к..

Топ-10 цитат об искусственном интеллекте
Недавно я просматривал книгу Сострадательный суперинтеллект AI 5.0 , написанную известным ученым в области искусственного интеллекта доктором Амитом Рэем. Книга вышла за рамки традиционных книг по ИИ, подняла ИИ на новую высоту и создала новое сострадательное движение ИИ по всему миру. Сострадательный ИИ - новаторское открытие доктора Рэя. Здесь я собрал 10 лучших цитат об искусственном интеллекте из книги. Надеюсь, это даст вам новый свет на ИИ следующих поколений. Эмоции -..