Публикации по теме 'reinforcement-learning'


Иерархическое обучение с подкреплением
В настоящее время вокруг обучения с подкреплением (RL) много шумихи. Я считаю, что на это есть веская причина: RL добился сверхчеловеческой производительности в видеоиграх Atari и даже победил лучшего игрока в го в мире. В настоящее время RL также применяется для управления и настройки системы, автономного вождения, робототехники и многого другого. Завоюет ли RL мир? Пока нет, сначала нужно разобраться с множеством проблем: Эффективность выборки : людям нужна практика, чтобы стать..

Обучение с подкреплением для обработки естественного языка - Часть 1
Добро пожаловать на мой курс по использованию обучения с подкреплением для НЛП. Это серия из трех частей, в которых я буду объяснять процесс применения обучения с подкреплением для обработки естественного языка. Что такое обучение с подкреплением? В обучении с подкреплением мы используем концепцию поведенческой психологии, в которой мы используем программные агенты для выполнения действий в Среде, чтобы увеличить совокупное вознаграждение для агентов. Система будет пытаться изучить..

AWS re: Invent - итоги машинного обучения (среда)
Отслеживать запуск новых услуг и функций на re: Invent довольно сложно, поэтому вот краткий обзор того, что произошло сегодня во время выступления Энди. Ищете вчерашние объявления? Инфраструктура и фреймворки Amazon Elastic Inference : новый сервис, который позволяет вам подключить необходимое ускорение логических выводов на базе графического процессора к любому инстансу Amazon EC2. Это также доступно для инстансов и конечных точек Amazon SageMaker, обеспечивая ускорение..

Получение информации о результатах многократного поиска с помощью обучения с подкреплением
Новый подход Alibaba к ранжированию результатов поиска Эта статья является частью серии Academic Alibaba и взята из статьи Юйцзин Ху Обучение с подкреплением для ранжирования в поисковой системе электронной коммерции: формализация, анализ и применение . , Цин Да, Аньсян Цзэн, Ян Ю и Инхуэй Сюй. Полную версию статьи можно прочитать здесь . Методы обучения ранжированию (LTR) широко применяются платформами электронной коммерции в качестве решения для ранжирования результатов..

Глубокое обучение с подкреплением: будущие границы искусственного интеллекта
Глубокое обучение с подкреплением: будущие границы искусственного интеллекта Искусственный интеллект, хотя с точки зрения маркетинга различных организаций, может означать множество вещей, охватывающих системы, от традиционной аналитики до более современного глубокого обучения и чат-ботов. Но технически использование терминологии искусственного интеллекта (ИИ) ограничивается изучением и проектированием «рациональных» агентов, которые могут действовать «по-человечески». Из многих..

Практический RL
Прежде чем мы погрузимся в игру RL, позвольте нам сначала понять некоторые основы, которые позволят вам понять весь алгоритм сразу. RL работает по трем основным принципам: Политика Ценность Награды Довольно прям, правда? С точки зрения новичка (если кто-то впервые читает эти термины) определения приведенного выше могут показаться такими: Политика - это относится к некоему закону, который машина должна соблюдать для выполнения определенных задач, например, во время поездки в..

Скрытые проблемы глобализированного производства: как может помочь машинное обучение
Обсуждение растущих, но недооцененных проблем цепочки поставок и актуальности машинного обучения для их решения. А. Взгляд на современные проблемы цепочки поставок В условиях глобализации сложность цепочки поставок за последние 20 лет неуклонно возрастала. Вот некоторые ключевые факторы, которые заметно способствовали этой эволюции. а) Многие отрасли промышленности стали более консолидированными. Это, в свою очередь, способствовало централизованному созданию..