Учимся играть в понг: обучение с подкреплением

Здравствуйте, читатели! Как обычно, я делюсь с вами некоторыми мыслями, которые пришли мне в голову за последнюю неделю, и моим прогрессом в рамках стипендиальной программы OpenAI.

Недавно у меня был несколько философский разговор с моим другом о важности человеческой жизни. Я имею в виду… Мы просыпаемся каждый день, занимаемся повседневными делами, общаемся с другими людьми, но действительно ли мы понимаем, что важно в нашей жизни?

Существует множество определений и мотивационных речей, философских концепций и бизнес-книг о мотивации и личностном росте. Но я всегда думал о том, как кто-то может использовать этот совет в момент уязвимости и трудностей. Я имею в виду, что так легко говорить вдохновляюще, но значительно сложнее воплощать эти идеи в жизнь, создавать и продвигать вещи вперед.

Я всегда держал в голове образ совершенно бесстрашного человека, который всегда на 100% уверен в любой жизненной ситуации. Мне потребовалось время, чтобы понять, что не имеет значения, через сколько испытаний проходит человек — всегда будут невидимые препятствия, которые нужно преодолеть, и «возможности» испытать: страх, разочарование и неуверенность в себе. И мы должны научиться принимать такие неприятные чувства и не отступать перед ними. Очень важно научиться бороться и продолжать свой путь, несмотря ни на что.

Вселенная хочет, чтобы мы жили, существовали, процветали. И по мере того, как мы будем продолжать бороться за свое существование, мы будем наращивать нашу внутреннюю силу. Это то, чего хочет от нас Вселенная.

Мой прогресс в качестве стипендиата OpenAI

На прошлой неделе я работал над задачей RL и просмотрел публикацию в блоге Андрея Карпаты о RL и о том, как обучить агента играть в игру Pong. Если вы хотите наверстать упущенное в основах RL, я бы порекомендовал вам прочитать эту чрезвычайно полезную статью.

Итак, я реализовал игру Pong, но, поскольку я развиваю свои навыки работы с TensorFlow, я сделал это с помощью фреймворка.

Я делюсь ниже частью кода TF.

Импорт необходимых для работы пакетов, настройка гиперпараметров, среда, в которой мы будем работать.

Определение функций политики.

Процесс обучения.

Я все еще играю с гиперпараметрами и делаю некоторые трюки и поделюсь окончательным результатом в своем следующем посте.

Вы можете оставить свои комментарии и отзывы. Кроме того, вот мои предыдущие статьи.

От балерины до исследователя ИИ: Часть IX

От балерины до исследователя ИИ: Часть VIII

От балерины до исследователя ИИ: Часть VII

От балерины до исследователя ИИ: Часть VI

От балерины до исследователя ИИ: Часть V

От балерины до исследователя ИИ: Часть IV

От балерины до исследователя ИИ: Часть III

От балерины до исследователя ИИ: Часть II

От балерины до исследователя ИИ: Часть I