Публикации по теме 'reinforcement-learning'


Контролируемое, неконтролируемое и обучение с подкреплением: введение в сознание новичка
Если бы вы были машиной, какую стратегию обучения вы бы использовали? Машинное обучение, область, которая позволяет компьютерам учиться без явного программирования — Артур Сэмюэл Вместо того, чтобы использовать жесткие инструкции или фиксированную последовательность действий, мы стремимся обучать машину так же, как мы обучаем ребенка, позволяя ему учиться на собственном опыте. Контролируемое обучение — для подачи множества данных, четко обозначенных правильными ответами. Как..

Обучение и выступления в реальном мире
AKA Обучение с подкреплением Чтобы взаимодействовать со сложной средой, живым существам необходимо произвести «правильную» последовательность действий для получения отложенных будущих вознаграждений . Эти живые существа или субъекты могут ощущать окружающую среду и производить действия в ответ на последовательность состояний как среды, так и предыдущей истории агента. См. Рисунок: Сценарий, в котором мы хотим научиться выполнять некоторые задачи, следующий: актер в среде..

Типы машинного обучения | Давайте разберемся, часть 2.  — ML для ленивых 2021
Этот тип обучения является новым и является важной частью области машинного обучения. Мы используем этот тип обучения, когда у нас есть несколько размеченных данных и много неразмеченных данных в процессе обучения. Этот тип обучения находится между контролируемым и неконтролируемым обучением. Та часть, где у нас есть помеченные данные, попадает в контролируемый домен, а объем немаркированных данных попадает в неконтролируемый домен. Получение размеченных данных очень дорого и требует..

Вебинар по моделям ИИ: использование машинного обучения для решения бизнес-задач
Генеральный директор Bonsai Марк Хаммонд недавно встретился с вице-президентом и генеральным директором NVIDIA Джимом МакХью, чтобы обсудить проблемы и требования к созданию программируемых, адаптивных и надежных моделей ИИ. Посмотрите этот веб-семинар по запросу, чтобы узнать о спектре вариантов использования ИИ и о том, как предприятия могут сочетать передовые технологии машинного обучения с глубокими знаниями предметной области для решения реальных бизнес-задач. Ключевые темы,..

Пользовательские среды Gymnasium и агенты Stable-Baselines3 с несколькими входами
Алгоритмы обучения с подкреплением часто применяются к средам с необработанными входными кадрами в форме изображений, последовательностей изображений или векторов признаков. Обработка наблюдений изображений в Stable-Baselines3 выполняется с помощью кодировщиков признаков CNN, в то время как векторы признаков передаются непосредственно в многоуровневую нейронную сеть политик. Но что, если вы хотите объединить изображения и векторы в пространство наблюдения с несколькими входами?..

Типы машинного обучения
Машинное обучение — это область искусственного интеллекта, основная цель которой — сделать машины разумными, способными принимать решения самостоятельно, используя знания и прошлый опыт. Давайте возьмем реальный пример, чтобы понять машинное обучение. Предположим, человек посещает врача для проверки. Первый вопрос, который задает врач, – как вы себя чувствуете. Человек сообщает врачу о симптомах, таких как потливость, лихорадка, кашель, чихание, потеря аппетита. На основании..

Уравнение Беллмана: расшифровка оптимальных путей с состоянием, действием, вознаграждением и скидкой
В области обучения с подкреплением одной из самых фундаментальных концепций является уравнение Беллмана. Это уравнение, разработанное дальновидным математиком Ричардом Эрнестом Беллманом, произвело революцию в том, как агенты ориентируются и принимают решения в неопределенных условиях. Используя взаимодействие состояний, действий, вознаграждений и скидок, уравнение Беллмана позволяет интеллектуальным агентам находить оптимальные пути и оптимизировать свои процессы принятия решений. В этой..