Публикации по теме 'reinforcement-learning'


Формирование мышления машинного обучения
Машинное обучение, искусственный интеллект, глубокое обучение — вот некоторые из слов, которые мы слышим каждый день, и они используются почти во всех проблемах нашей повседневной жизни. Итак, что такое машинное обучение? Что-то, что имеет способность учиться и рассуждать. Итак, с чего мы начнем? Нам нужно определить проблему, которую необходимо решить. Итак, конвейер машинного обучения состоит из: Определите проблему машинного обучения, 2. Сбор и сбор данных, имеющих отношение к..

Обучение с подкреплением с использованием Asynchronous Advantage Actor Critic
В своем исследовании я наткнулся на эффективный метод обучения под названием Asynchronous Advantage Actor Critic (A3C), опубликованный DeepMind. Этот алгоритм с большим отрывом превосходит знаменитый DQN, а также дает более стабильные результаты. В этом посте я хотел дать подробное объяснение того, как работает алгоритм, надеюсь, вдохновив больше людей применять его в своих проектах. Если вас интересует код, я реализовал алгоритм с использованием Tensorflow и Keras, вдохновленный этой..

Точная модель ячейки эквивалентной схемы с параметрическими функциями, обученными противником…
Мы можем применить идеи из Изучения точного физического симулятора с помощью состязательного обучения с подкреплением для моделирования ячеек с помощью моделей электрических ячеек, таких как Модель эквивалентной схемы Thevenin : Сделайте все параметры модели (например, сопротивления и емкости в модели эквивалентной схемы (ECM)) обученными функциями состояния (степень заряда, температура и т. д.). Этих зависимостей может не быть в физической реальности: например, емкостные параметры в..

От балерины до исследователя ИИ: часть X
Учимся играть в понг: обучение с подкреплением Здравствуйте, читатели! Как обычно, я делюсь с вами некоторыми мыслями, которые пришли мне в голову за последнюю неделю, и моим прогрессом в рамках стипендиальной программы OpenAI. Недавно у меня был несколько философский разговор с моим другом о важности человеческой жизни. Я имею в виду… Мы просыпаемся каждый день, занимаемся повседневными делами, общаемся с другими людьми, но действительно ли мы понимаем, что важно в нашей жизни?..

Марковский процесс принятия решений
Сетевой мир Проблема, похожая на лабиринт: Агент живет в сетке. Стены преграждают путь агенту. Шумное движение: действия не всегда идут по плану. В 80% случаев действие «Север» берет на себя агент «Север». В 10% случаев Норт берет агента Уэста; В 10% случаев Север берет агента Востока. Если есть стена в том направлении, куда должен был уйти агент, агент остается на месте. Агент получает вознаграждение за каждый временной шаг: Небольшая «живая» награда за каждый шаг..

Машинное обучение
Соединение точек Машинное обучение Обзор машинного обучения Как вы думаете, что общего между Tesla Cars и линейной регрессией? Tesla , автомобилем, который выполняет очень сложные алгоритмы глубокого обучения . strong> при беге почти 60 миль в час с такой большой точностью и скоростью , в то время как линейная регрессия в основном является наиболее подходящей линией😂(с при всем уважении к LR). Ответ связан с самой маленькой единицей каждого алгоритма машинного..

Бумажная репродукция: глубокая нейроэволюция
В этом посте мы воспроизводим недавнюю статью Uber Глубокая нейроэволюция: генетические алгоритмы - конкурентная альтернатива для обучения глубоких нейронных сетей для обучения с подкреплением », в которой удивительным образом показано, что простые генетические алгоритмы иногда работают лучше, чем явно продвинутые алгоритмы обучения с подкреплением. изучал такие проблемы, как игры Atari. Мы сами достигнем высочайшего уровня производительности Frostbite, игры, которая годами ставила в..