Публикации по тегам reinforcement-learning

Публикации по теме 'reinforcement-learning'

Воробей | Улучшение согласования диалоговых агентов с помощью целенаправленных человеческих суждений

Проблема. Sparrow решает задачу создания более безопасного диалогового агента. В частности, проблема состоит в согласовании поведения агента с человеческим суждением, чтобы вести полезный, правильный и безобидный разговор. Метод. Чтобы создать агента диалога, авторы исходят из языковой модели 70B, шиншиллы, подсказанной диалогом (DPC). Судьи-люди предоставляют обратную связь о своем взаимодействии с моделью, о нарушении правил и предпочтениях в ответах. Набор правил не является..

Система рекомендаций с обучением с подкреплением

Проект Harvard Data Science Capstone, осень 2019 г. Члены команды : Софи Чжао, Ичжоу Ван, Фэн Цянь Система рекомендаций может быть жизненно важным конкурентным преимуществом для таких поставщиков услуг, как Spotify, которые в основном развивают бизнес за счет подписок пользователей. Точные рекомендации помогают улучшить пользовательский опыт и укрепить лояльность клиентов. Традиционные методы рекомендаций включают моделирование взаимодействия пользователя с элементом с..

Исследователи хотели бы, чтобы вы внесли свой вклад в эту платформу или использовали ее для своих исследований.

Исследователи хотели бы, чтобы вы внесли свой вклад в эту платформу или использовали ее для своих исследований. Платформа PyTorch для распределенного RL Благодаря достижениям в области глубокого обучения и аппаратного обеспечения графического процессора, обучение с подкреплением достигло множества подвигов, включая способность агентов изучать политики и решать сложные задачи. Неудивительно, что он вызвал большой интерес. Однако, по мнению ученых, не хватает хорошо написанных,..

Обучение с подкреплением, часть 2: Знакомство с марковским процессом

Шаг первый к пониманию MDP: марковский процесс С возвращением в мой блог об искусственном интеллекте! В моем последнем посте я дал краткое введение в обучение с подкреплением . Сегодня я помогу вам продолжить ваше путешествие, представив Марковский процесс, который нам нужно будет понять, прежде чем обсуждать Марковский процесс принятия решений (MDP), используемый в обучении с подкреплением. К концу вы получите базовые знания о: Что такое свойство Маркова и цепь Маркова; Как..

Машинное обучение и ИИ

Если вы зашли на эту страницу, вы, по сути, поняли, что такое ИИ. Теперь нам нужно понять концепцию машинного обучения, лежащую в основе работы ИИ. Как следует из названия, концепция основана на машинном обучении на основе данных. Машинное обучение разрабатывается с использованием данных и алгоритмов. Он фокусируется на принятии решений на основе эмпирических данных, фактически не будучи запрограммирован на это. Эта ветвь тесно связана с вычислительной статистикой, где прогнозы..

Обучение, основанное на взаимодействии: обучение на основе отзывов, а не наград

В типичной задаче обучения с подкреплением агент, находящийся в среде, делает наблюдения, предпринимает действия и получает вознаграждение. Цель агента — научиться получать максимально возможную сумму вознаграждения (иногда со скидкой). Для этого вознаграждение на каждом временном шаге используется для корректировки вероятности действий, предпринимаемых агентом в данном состоянии, так что в будущем агент будет получать в среднем больше вознаграждения, чем в прошлом. Этот параметр был..

Бумажные таблетки с 22 декабря по январь 2023 г.

Время между годами было довольно занятым для нас. Среди прочего, мы создали наш новый тренинг Методы и проблемы в объяснимом ИИ и приложили значительные усилия для разработки наших библиотек с открытым исходным кодом, таких как pyDVL: библиотека оценки данных python . Тем не менее, нам также удалось найти время для изучения литературы. Вот краткое изложение того, что нам показалось интересным. Критическая регуляризованная регрессия Простой, но мощный алгоритм автономного обучения..