Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Внедрение обучения с подкреплением и метода актерской критики

Основная идея Введение Машинное обучение было одной из самых спорных тем за последние несколько десятилетий, и до последних лет не было большого прогресса. Среди всех тем машинного обучения обучение с подкреплением кажется недооцененной областью, хотя оно существует с 1950-х годов. Тем не менее, исследователи из DeepMind продемонстрировали первую модель глубокого обучения, позволяющую успешно изучать политики управления непосредственно на основе многомерных сенсорных данных с..

Объяснение оптимизации проксимальной политики

Обучение с подкреплением — это стратегия машинного обучения, которая требует, чтобы агент генерировал действия с заданным состоянием, чтобы получить максимальное долгосрочное вознаграждение. Естественно, есть много способов, которыми агент может создать алгоритм для этого. Например, алгоритм может научиться аппроксимировать ожидаемое вознаграждение с учетом конкретной политики и оптимизировать свою политику, чтобы максимизировать вознаграждение. С другой стороны, алгоритм может попытаться..

В лес: исследование глубин науки о данных

Навигация по лесу науки о данных: руководство для начинающих по изучению конвейера науки о данных, машинного обучения, глубокого обучения, активного обучения и обучения с подкреплением Умные люди знают, что нельзя знать все. Поэтому я хочу познакомить вас с лесом, где другие могут познакомить вас с определенным деревом. Я предоставлю более широкий взгляд, чтобы вы выбрали, куда углубиться. Этот пост в блоге является частью лекции, прочитанной в сентябре 2020 года. Для тех, кто..

ML4T (CS 7646) — Обзор OMSCS

Первоначально опубликовано в моем блоге . В этом семестре я сошел с ума. Машинное обучение для трейдинга И Машинное обучение — прошли оба этих курса. Я слышал, как многие сомневаются в этом решении, комментируя, что оно будет очень жестким, строгим и что у меня не будет времени. Но, оглядываясь назад, я действительно немного наслаждался жизнью. Несомненно, усилия, направленные на совместное изучение этих двух предметов, были огромными, но я все еще мог найти время, чтобы..

Разработка интеллектуальных приложений с помощью Spice.AI

ИИ — одна из самых востребованных технологий на сегодняшний день. Однако до сих пор не было удобной среды для создания приложений на основе ИИ. Так было до тех пор, пока Spice.AI не был представлен сообществу разработчиков ИИ. В этом обзоре мы будем следовать пошаговому руководству Spice.AI и продемонстрируем, что он может предложить в настоящее время. Примечание: мы должны учитывать, что проект находится в активной стадии разработки alpha (версия v0.6-alpha будет рассмотрена) и не..

Введение в обучение с подкреплением

Обучение с подкреплением - это тип машинного обучения, который определяет, как агент должен принять решение о действиях , чтобы увеличить свое вознаграждение в окружающая среда . Если задуматься, мы тоже учимся именно так. Агент будет вами, мир будет окружающей средой, и вы решите действия, чтобы попытаться максимизировать свою награду. Положительные и отрицательные награды будут просто положительными и отрицательными стимулами в вашем мозгу. Младенец идет к камину. С..

Обучение с подкреплением без использования моделей для распределения активов

TL-DR: агенты-критики, действующие по политике, показали лучшие результаты, чем другие классы агентов RL, в обнаружении более прибыльных торговых стратегий. Полный отчет об исследовании доступен здесь . Мы также опубликовали пакет Python с открытым исходным кодом для распределения активов. Попробуйте! В финансах портфель представляет собой набор нескольких финансовых активов, таких как акции, облигации и денежные средства. Распределение активов (или управление портфелем) — это..