Публикации по теме 'reinforcement-learning'
Формирование мышления машинного обучения
Машинное обучение, искусственный интеллект, глубокое обучение — вот некоторые из слов, которые мы слышим каждый день, и они используются почти во всех проблемах нашей повседневной жизни.
Итак, что такое машинное обучение?
Что-то, что имеет способность учиться и рассуждать.
Итак, с чего мы начнем? Нам нужно определить проблему, которую необходимо решить.
Итак, конвейер машинного обучения состоит из:
Определите проблему машинного обучения, 2. Сбор и сбор данных, имеющих отношение к..
Обучение с подкреплением с использованием Asynchronous Advantage Actor Critic
В своем исследовании я наткнулся на эффективный метод обучения под названием Asynchronous Advantage Actor Critic (A3C), опубликованный DeepMind. Этот алгоритм с большим отрывом превосходит знаменитый DQN, а также дает более стабильные результаты. В этом посте я хотел дать подробное объяснение того, как работает алгоритм, надеюсь, вдохновив больше людей применять его в своих проектах. Если вас интересует код, я реализовал алгоритм с использованием Tensorflow и Keras, вдохновленный этой..
Точная модель ячейки эквивалентной схемы с параметрическими функциями, обученными противником…
Мы можем применить идеи из Изучения точного физического симулятора с помощью состязательного обучения с подкреплением для моделирования ячеек с помощью моделей электрических ячеек, таких как Модель эквивалентной схемы Thevenin :
Сделайте все параметры модели (например, сопротивления и емкости в модели эквивалентной схемы (ECM)) обученными функциями состояния (степень заряда, температура и т. д.). Этих зависимостей может не быть в физической реальности: например, емкостные параметры в..
От балерины до исследователя ИИ: часть X
Учимся играть в понг: обучение с подкреплением
Здравствуйте, читатели! Как обычно, я делюсь с вами некоторыми мыслями, которые пришли мне в голову за последнюю неделю, и моим прогрессом в рамках стипендиальной программы OpenAI.
Недавно у меня был несколько философский разговор с моим другом о важности человеческой жизни. Я имею в виду… Мы просыпаемся каждый день, занимаемся повседневными делами, общаемся с другими людьми, но действительно ли мы понимаем, что важно в нашей жизни?..
Марковский процесс принятия решений
Сетевой мир
Проблема, похожая на лабиринт:
Агент живет в сетке. Стены преграждают путь агенту.
Шумное движение: действия не всегда идут по плану.
В 80% случаев действие «Север» берет на себя агент «Север». В 10% случаев Норт берет агента Уэста; В 10% случаев Север берет агента Востока. Если есть стена в том направлении, куда должен был уйти агент, агент остается на месте.
Агент получает вознаграждение за каждый временной шаг:
Небольшая «живая» награда за каждый шаг..
Машинное обучение
Соединение точек
Машинное обучение
Обзор машинного обучения
Как вы думаете, что общего между Tesla Cars и линейной регрессией? Tesla , автомобилем, который выполняет очень сложные алгоритмы глубокого обучения . strong> при беге почти 60 миль в час с такой большой точностью и скоростью , в то время как линейная регрессия в основном является наиболее подходящей линией😂(с при всем уважении к LR).
Ответ связан с самой маленькой единицей каждого алгоритма машинного..
Бумажная репродукция: глубокая нейроэволюция
В этом посте мы воспроизводим недавнюю статью Uber Глубокая нейроэволюция: генетические алгоритмы - конкурентная альтернатива для обучения глубоких нейронных сетей для обучения с подкреплением », в которой удивительным образом показано, что простые генетические алгоритмы иногда работают лучше, чем явно продвинутые алгоритмы обучения с подкреплением. изучал такие проблемы, как игры Atari.
Мы сами достигнем высочайшего уровня производительности Frostbite, игры, которая годами ставила в..