Публикации по теме 'reinforcement-learning'
Введение в обучение с подкреплением. Часть 1: Проблема многорукого бандита
Проблема многоруких бандитов
Поговорим о обучении с подкреплением (RL) . Это метод искусственного интеллекта (ИИ), в котором агент должен взаимодействовать с средой , выбирая одно из доступных действий , предоставляемых средой. в каждом возможном состоянии , чтобы попытаться получить как можно больше вознаграждений в результате этих действий.
Сначала агент ничего не знает об окружающей среде, что приводит к случайным действиям. Но если определенное действие приводит к..
Где хранятся знания внутри алгоритмов машинного обучения?
Различные парадигмы имеют разные способы обучения.
Формально у нас есть следующие определения машинного обучения (ML):
я. «Область исследования, которая дает компьютерам возможность учиться без явного программирования». - Артур Сэмюэл, 1959 г.
II. «Правильно поставленная проблема обучения: говорят, что компьютерная программа учится на опыте E в отношении некоторой задачи T и некоторой производительности P , если его эффективность на T , измеряемая P , улучшается с..
Глубокое обучение и глубокое обучение с подкреплением в реальной среде
Недавно я прошел две специализации на Coursera: специализацию по глубокому обучению, предложенную Эндрю Нг, и специализацию по обучению с подкреплением, предлагаемую Университетом Альберты (обе из которых я настоятельно рекомендую вместе с курсом Эндрю Нг по машинному обучению для всех, кто хочет узнать об этих концепциях). Я был весьма поражен возможностями этих алгоритмов, особенно обучением с подкреплением, которое, на мой взгляд, является наиболее близким к настоящему ИИ алгоритмом..
Каузальные модели
Автор: Привет, меня зовут Сент-Джон, и я пишу блоги о современных технологиях и интересных вещах для своего личного блога stjohngrimbly.com . В настоящее время я интересуюсь, среди прочего, машинным обучением и причинно-следственными связями. Надеюсь, вам понравится этот краткий обзор!
В прошлый раз мы обсуждали и мотивировали необходимость современной теории каузального вывода. Мы разработали некоторые из основных принципов, необходимых для развития этой теории, но нам еще..
Как записать данные для агента обучения с подкреплением из любой игры в Linux
Авторы Филип Набрдалик , Петр Смуда и Петр Темпчик
Количество игр, поддерживающих OpenAI Gym API , уже велико и продолжает расти. Эти игры позволяют с легкостью обучать агентов обучения с подкреплением.
Но что, если вы хотите играть в свою любимую игру, но у нее нет API, подходящего для RL? Если в игре есть какой-либо API, ваша проблема частично решена, но когда выбранная вами игра предназначено для игры только с помощью клавиатуры, мыши, пэда или гоночного руля, ваша..
Подземелья и кости
Размышления о случайности, многоруких бандитах и представлении чисел в настольных ролевых играх
Очень часто вы можете оказаться в хорошей компании и готовы сразиться с некоторыми орками (или людьми, как вам больше нравится), но, увы, у вас нет кубиков.
Обычно проблема усугубляется необходимостью не только 6-гранного штампа D6 , но и всего остального зоопарка платоновых тел D4 , D8 , D12 , D20 . D10 иногда также добавляется в смесь. Я видел много решений этой проблемы,..
Искусственный интеллект для управления запасами.
Хорошее управление запасами вращается вокруг единственного противоречия : наличие достаточного количества запасов на складе для обеспечения непрерывного движения бизнеса, но недостаточного количества запасов для истощения его ограниченных денежных резервов. Это противоречие лежит в основе роли менеджера магазина. Это работа, где скучно лучше всего, где предвидятся все потребности бизнеса, где многие срочные звонки являются критическими звонками, совершаемыми кем-то другим, но где команде..