Обзор практического машинного обучения с помощью Scikit-Learn, Keras и Tensorflow Орельена Жерона

Резюме

Когда я традиционно думал о машинном обучении и искусственном обучении, прежде чем начать свое обучение, обучение с подкреплением было, по сути, тем, о чем я думал. Это процесс, в котором компьютер или робот с компьютерным питанием учится выполнять задачу без вмешательства человека. Большинство людей видели видео, на которое я дал ссылку выше, как человекоподобный робот учится ходить. Честно говоря, довольно забавно наблюдать, как он спотыкается и пытается идти совсем не по-человечески. Однако этот робот просто учится всему, что не работает, методом проб и ошибок. По сути, он проходит через петлю обратной связи, в которой он пытается пройти и получает вознаграждение в зависимости от того, как далеко он продвинулся. Таким образом, хорошее поведение подкрепляется, а плохое наказывается.

Базовое обучение с подкреплением

Обучение с подкреплением — это построение модели, которая может интерпретировать и учиться на вознаграждениях и наказаниях. Так, например, если я разрабатываю автомобильный симулятор и обучаю его вождению, я создаю среду, в которой машина может испытать вождение. То, как она едет в этом случае, будет называться ее политикой. Затем эта политика учится и «подкрепляется» поощрениями и наказаниями, установленными для случаев, когда автомобиль врезается в барьер или преодолевает его 3/. 4 пути прохождения курса.

Тренажерный зал OpenAI

Итак, в последнем абзаце я упомянул среду. Есть много способов создать среду, но вместо того, чтобы создавать свою собственную, вы можете использовать библиотеку, такую ​​​​как тренажерный зал OpenAI. Этот «тренажерный зал» импортирован через

pip install gym #in the command line
import gym
env = gym.make(<your gym>)

Вы можете получить доступ ко всем средам, таким как игры Atari или тележка, над которой мы работали в этой главе. И в этом тренажерном зале вы можете экспериментировать и оптимизировать свои модели обучения с подкреплением, не тратя много времени на создание собственной реалистичной среды.

Q-обучение

Q-Learning — это способ реализации обучения с подкреплением посредством Q-Values. Эти Q-значения являются способом оценки вознаграждений, которые наш агент получает в окружающей среде. Я не буду вдаваться в математику этого метода, но, по сути, это метод оценки, который оптимизирует политику моделей для максимизации целевого значения Q. Основываясь на обычных моделях Q-Learning, вы можете использовать Deep Learning в части Neural Network для создания модели Deep Q-Learning. И хотя эффективное обучение может быть трудным, оно может создать сильные модели подкрепления.

Мои мысли

Это была классная глава для меня, потому что, как я уже говорил выше, обучение с подкреплением — это, по сути, то, что я считал машинным обучением до того, как начал работать в этой области. Так машины, по сути, вошли в совершенно неизвестную область и научились у своего окружения так же, как мы, когда мы дети. Когда вы наблюдаете, как дети узнают все, что они узнают, наблюдая и просто проверяя. При обучении езде на велосипеде ребенок обычно учится методом проб и ошибок. Если они терпят неудачу, их наказывают падением, а когда они продвигаются все дальше и дальше, их хвалят родители (или их собственное внутреннее удовлетворение). Это особенно круто для меня, потому что для меня это больше похоже на общий искусственный интеллект, чем на глубокое обучение с помеченным набором данных. В частности, как упоминалось в главе, AlphaZero — действительно классный пример этого. Это модель обучения с подкреплением, которая имеет несколько обобщенный интеллект, поскольку было показано, что она учится и осваивает большинство игр Atari, несмотря на то, что человеческий вклад практически отсутствует. Как форма обобщенного интеллекта, я нахожу это действительно крутым, и я рад увидеть больше того, куда пойдет эта область в будущем.

Спасибо за чтение!

Если у вас есть какие-либо вопросы или отзывы, пожалуйста, свяжитесь со мной в твиттере @wtothdev или оставьте комментарий!

Кроме того, я хотел бы выразить огромную благодарность Орельен Жерон за написание такой прекрасной книги. Вы можете приобрести указанную книгу здесь (не партнерская).

Отказ от ответственности: я не зарабатываю деньги ни на одной из упомянутых услуг и решил прочитать и просмотреть эту книгу по своей собственной воле.