Публикации по теме 'reinforcement-learning'


Введение в обучение с подкреплением. Часть 1: Проблема многорукого бандита
Проблема многоруких бандитов Поговорим о обучении с подкреплением (RL) . Это метод искусственного интеллекта (ИИ), в котором агент должен взаимодействовать с средой , выбирая одно из доступных действий , предоставляемых средой. в каждом возможном состоянии , чтобы попытаться получить как можно больше вознаграждений в результате этих действий. Сначала агент ничего не знает об окружающей среде, что приводит к случайным действиям. Но если определенное действие приводит к..

Где хранятся знания внутри алгоритмов машинного обучения?
Различные парадигмы имеют разные способы обучения. Формально у нас есть следующие определения машинного обучения (ML): я. «Область исследования, которая дает компьютерам возможность учиться без явного программирования». - Артур Сэмюэл, 1959 г. II. «Правильно поставленная проблема обучения: говорят, что компьютерная программа учится на опыте E в отношении некоторой задачи T и некоторой производительности P , если его эффективность на T , измеряемая P , улучшается с..

Глубокое обучение и глубокое обучение с подкреплением в реальной среде
Недавно я прошел две специализации на Coursera: специализацию по глубокому обучению, предложенную Эндрю Нг, и специализацию по обучению с подкреплением, предлагаемую Университетом Альберты (обе из которых я настоятельно рекомендую вместе с курсом Эндрю Нг по машинному обучению для всех, кто хочет узнать об этих концепциях). Я был весьма поражен возможностями этих алгоритмов, особенно обучением с подкреплением, которое, на мой взгляд, является наиболее близким к настоящему ИИ алгоритмом..

Каузальные модели
Автор: Привет, меня зовут Сент-Джон, и я пишу блоги о современных технологиях и интересных вещах для своего личного блога stjohngrimbly.com . В настоящее время я интересуюсь, среди прочего, машинным обучением и причинно-следственными связями. Надеюсь, вам понравится этот краткий обзор! В прошлый раз мы обсуждали и мотивировали необходимость современной теории каузального вывода. Мы разработали некоторые из основных принципов, необходимых для развития этой теории, но нам еще..

Как записать данные для агента обучения с подкреплением из любой игры в Linux
Авторы Филип Набрдалик , Петр Смуда и Петр Темпчик Количество игр, поддерживающих OpenAI Gym API , уже велико и продолжает расти. Эти игры позволяют с легкостью обучать агентов обучения с подкреплением. Но что, если вы хотите играть в свою любимую игру, но у нее нет API, подходящего для RL? Если в игре есть какой-либо API, ваша проблема частично решена, но когда выбранная вами игра предназначено для игры только с помощью клавиатуры, мыши, пэда или гоночного руля, ваша..

Подземелья и кости
Размышления о случайности, многоруких бандитах и ​​представлении чисел в настольных ролевых играх Очень часто вы можете оказаться в хорошей компании и готовы сразиться с некоторыми орками (или людьми, как вам больше нравится), но, увы, у вас нет кубиков. Обычно проблема усугубляется необходимостью не только 6-гранного штампа D6 , но и всего остального зоопарка платоновых тел D4 , D8 , D12 , D20 . D10 иногда также добавляется в смесь. Я видел много решений этой проблемы,..

Искусственный интеллект для управления запасами.
Хорошее управление запасами вращается вокруг единственного противоречия : наличие достаточного количества запасов на складе для обеспечения непрерывного движения бизнеса, но недостаточного количества запасов для истощения его ограниченных денежных резервов. Это противоречие лежит в основе роли менеджера магазина. Это работа, где скучно лучше всего, где предвидятся все потребности бизнеса, где многие срочные звонки являются критическими звонками, совершаемыми кем-то другим, но где команде..