Глава 18: Обучение с подкреплением

Обзор практического машинного обучения с помощью Scikit-Learn, Keras и Tensorflow Орельена Жерона

Резюме

Когда я традиционно думал о машинном обучении и искусственном обучении, прежде чем начать свое обучение, обучение с подкреплением было, по сути, тем, о чем я думал. Это процесс, в котором компьютер или робот с компьютерным питанием учится выполнять задачу без вмешательства человека. Большинство людей видели видео, на которое я дал ссылку выше, как человекоподобный робот учится ходить. Честно говоря, довольно забавно наблюдать, как он спотыкается и пытается идти совсем не по-человечески. Однако этот робот просто учится всему, что не работает, методом проб и ошибок. По сути, он проходит через петлю обратной связи, в которой он пытается пройти и получает вознаграждение в зависимости от того, как далеко он продвинулся. Таким образом, хорошее поведение подкрепляется, а плохое наказывается.

Базовое обучение с подкреплением

Обучение с подкреплением — это построение модели, которая может интерпретировать и учиться на вознаграждениях и наказаниях. Так, например, если я разрабатываю автомобильный симулятор и обучаю его вождению, я создаю среду, в которой машина может испытать вождение. То, как она едет в этом случае, будет называться ее политикой. Затем эта политика учится и «подкрепляется» поощрениями и наказаниями, установленными для случаев, когда автомобиль врезается в барьер или преодолевает его 3/. 4 пути прохождения курса.

Тренажерный зал OpenAI

Итак, в последнем абзаце я упомянул среду. Есть много способов создать среду, но вместо того, чтобы создавать свою собственную, вы можете использовать библиотеку, такую как тренажерный зал OpenAI. Этот «тренажерный зал» импортирован через

pip install gym #in the command line
import gym
env = gym.make(<your gym>)

Вы можете получить доступ ко всем средам, таким как игры Atari или тележка, над которой мы работали в этой главе. И в этом тренажерном зале вы можете экспериментировать и оптимизировать свои модели обучения с подкреплением, не тратя много времени на создание собственной реалистичной среды.

Q-обучение

Q-Learning — это способ реализации обучения с подкреплением посредством Q-Values. Эти Q-значения являются способом оценки вознаграждений, которые наш агент получает в окружающей среде. Я не буду вдаваться в математику этого метода, но, по сути, это метод оценки, который оптимизирует политику моделей для максимизации целевого значения Q. Основываясь на обычных моделях Q-Learning, вы можете использовать Deep Learning в части Neural Network для создания модели Deep Q-Learning. И хотя эффективное обучение может быть трудным, оно может создать сильные модели подкрепления.

Мои мысли

Это была классная глава для меня, потому что, как я уже говорил выше, обучение с подкреплением — это, по сути, то, что я считал машинным обучением до того, как начал работать в этой области. Так машины, по сути, вошли в совершенно неизвестную область и научились у своего окружения так же, как мы, когда мы дети. Когда вы наблюдаете, как дети узнают все, что они узнают, наблюдая и просто проверяя. При обучении езде на велосипеде ребенок обычно учится методом проб и ошибок. Если они терпят неудачу, их наказывают падением, а когда они продвигаются все дальше и дальше, их хвалят родители (или их собственное внутреннее удовлетворение). Это особенно круто для меня, потому что для меня это больше похоже на общий искусственный интеллект, чем на глубокое обучение с помеченным набором данных. В частности, как упоминалось в главе, AlphaZero — действительно классный пример этого. Это модель обучения с подкреплением, которая имеет несколько обобщенный интеллект, поскольку было показано, что она учится и осваивает большинство игр Atari, несмотря на то, что человеческий вклад практически отсутствует. Как форма обобщенного интеллекта, я нахожу это действительно крутым, и я рад увидеть больше того, куда пойдет эта область в будущем.

Спасибо за чтение!

Если у вас есть какие-либо вопросы или отзывы, пожалуйста, свяжитесь со мной в твиттере @wtothdev или оставьте комментарий!

Кроме того, я хотел бы выразить огромную благодарность Орельен Жерон за написание такой прекрасной книги. Вы можете приобрести указанную книгу здесь (не партнерская).

Отказ от ответственности: я не зарабатываю деньги ни на одной из упомянутых услуг и решил прочитать и просмотреть эту книгу по своей собственной воле.