Учимся играть в понг: обучение с подкреплением
Здравствуйте, читатели! Как обычно, я делюсь с вами некоторыми мыслями, которые пришли мне в голову за последнюю неделю, и моим прогрессом в рамках стипендиальной программы OpenAI.
Недавно у меня был несколько философский разговор с моим другом о важности человеческой жизни. Я имею в виду… Мы просыпаемся каждый день, занимаемся повседневными делами, общаемся с другими людьми, но действительно ли мы понимаем, что важно в нашей жизни?
Существует множество определений и мотивационных речей, философских концепций и бизнес-книг о мотивации и личностном росте. Но я всегда думал о том, как кто-то может использовать этот совет в момент уязвимости и трудностей. Я имею в виду, что так легко говорить вдохновляюще, но значительно сложнее воплощать эти идеи в жизнь, создавать и продвигать вещи вперед.
Я всегда держал в голове образ совершенно бесстрашного человека, который всегда на 100% уверен в любой жизненной ситуации. Мне потребовалось время, чтобы понять, что не имеет значения, через сколько испытаний проходит человек — всегда будут невидимые препятствия, которые нужно преодолеть, и «возможности» испытать: страх, разочарование и неуверенность в себе. И мы должны научиться принимать такие неприятные чувства и не отступать перед ними. Очень важно научиться бороться и продолжать свой путь, несмотря ни на что.
Вселенная хочет, чтобы мы жили, существовали, процветали. И по мере того, как мы будем продолжать бороться за свое существование, мы будем наращивать нашу внутреннюю силу. Это то, чего хочет от нас Вселенная.
Мой прогресс в качестве стипендиата OpenAI
На прошлой неделе я работал над задачей RL и просмотрел публикацию в блоге Андрея Карпаты о RL и о том, как обучить агента играть в игру Pong. Если вы хотите наверстать упущенное в основах RL, я бы порекомендовал вам прочитать эту чрезвычайно полезную статью.
Итак, я реализовал игру Pong, но, поскольку я развиваю свои навыки работы с TensorFlow, я сделал это с помощью фреймворка.
Я делюсь ниже частью кода TF.
Импорт необходимых для работы пакетов, настройка гиперпараметров, среда, в которой мы будем работать.
Определение функций политики.
Процесс обучения.
Я все еще играю с гиперпараметрами и делаю некоторые трюки и поделюсь окончательным результатом в своем следующем посте.
Вы можете оставить свои комментарии и отзывы. Кроме того, вот мои предыдущие статьи.
От балерины до исследователя ИИ: Часть IX
От балерины до исследователя ИИ: Часть VIII
От балерины до исследователя ИИ: Часть VII
От балерины до исследователя ИИ: Часть VI
От балерины до исследователя ИИ: Часть V
От балерины до исследователя ИИ: Часть IV
От балерины до исследователя ИИ: Часть III