Итак, мы покончили с объективностью и приняли новую парадигму поиска. Как мы получаем решения, которые действительно ориентированы на проблему, которая нас волнует? И какие последствия мы несем, когда пытаемся втиснуть нашу цель обратно в картину? Я собираюсь обсудить минимальные ограничения, их влияние на MeleeNEAT и потенциальную стратегию смягчения последствий.

Минимальные ограничения позволяют нам применять предикат «годен/не годен» (тест) к каждому измерению поведения. Если это условие было истинным, поведение добавляется в архив новизны и оценивается соответствующим образом. Если ограничение не выполняется, агенту присваивается оценка 0, и поведение не добавляется. Это простое, но эффективное расширение поиска новинок, позволяющее ограничить область поиска. Однако это также вводит новую идею: возможные и невозможные агенты.

Эта новая дихотомия была исследована в документе, в котором они управляли двумя отдельными популяциями. Возможная популяция и недопустимая популяция. Когда невозможные агенты производили допустимое поведение, они затем переносились в допустимую популяцию. Авторы утверждают, что ценная информация была потеряна в процессе выбраковки, который происходит с минимальными критериями. Кроме того, в этой статье они отмечают, что применяемые ограничения создают своего рода набор карманов выполнимости. Это препятствует настоящему исследованию, поскольку у населения нет инструментов, чтобы выбраться с острова.

Поддерживая отдельное население, вы можете иметь транспортное средство для перемещения с острова на остров. Это наблюдение и решение подводят меня к новому вопросу и новому подходу к решению вышеуказанной проблемы. Какой еще «мета-обман» вводится ограничениями и смешением пространства поведения?

Что такое слияние пространства поведения? В MeleeNEAT мы собираем каждое действие, которое выполняет агент, в последовательность. Если эта последовательность повторяется, несмотря на качественные различия, которые не измеряются, это будет рассматриваться как одно и то же поведение. Если бы мы сохранили только этот единственный вектор, а не дополнительные векторы для повреждения и восстановления, мы бы увидели много потенциального смешения и потери смысла/важности. Возьмите этот пример:

У нас есть новая популяция Пикачу, которые случайным образом включают свое движение вверх-B в свой набор поведения, а также прыжки. По мере того, как агенты взрослели, и их начали сбивать со сцены, поиск новизны вполне мог оттолкнуть агента от поведения с ап-Б из-за раннего насыщения. Это вполне может помешать агенту обнаружить необходимое и новое поведение.

Хотя это несколько надуманный пример, я считаю, что это важная динамика при выборе метрики поведения. В исходной статье о поиске новинок они рассматривали стоимость вычислений по мере роста архива новинок. Они предполагают, что размер можно ограничить с минимальным ущербом для процесса поиска.

Я собираюсь пойти дальше и предположить, что не только нормально ограничить размер архива, но и то, что очистка архива может ускорить исследование. Сеть, которая, возможно, создала поведение в поколении 0, сильно отличается от сети в поколении 100. И на самом деле будут интересные уточнения, если мы позволим поиску вернуться в это пространство поведения.

Я думаю, что и это смешение пространства поведения, и динамика выполнимости, представленная минимальными критериями, являются двумя новыми проблемами, с которыми нужно бороться. Я обнаружил, что с проектом MeleeNEAT я выполняю последовательность: отсутствие ограничений пространства поведения для X поколений. Затем примените минимальное ограничение нанесения урона еще на X поколений. Затем сотрите архив новизны, удалите ограничение min и начните процесс заново. На практике с MeleeNeat это привело к кажущемуся повышению производительности при реальной способности играть в игру.

Я хотел добавить последнюю интуицию или мысль о том, почему это может работать и почему мы можем не наблюдать откат в традиционном смысле. В каком-то смысле для того, чтобы производить все более и более новое поведение, должно также сопровождаться развитие мастерства в отношении находящегося под рукой объекта. Без способности правильно владеть объектом действия, которые можно выполнить с этим объектом, резко сокращаются. Авторы часто описывают поиск новизны как накопитель информации, и я думаю, что это хорошо сочетается с идеей мастерства. Если говорить более конкретно, то в Smash Brothers соревнующиеся игроки обычно не улучшают свою игру, просто пытаясь выиграть. Они часто изучают и практикуют рутины, из-за которых их игра потенциально страдает или становится менее оптимальной. Возможно, аналогом такого поведения послужит поиск новинок.

Я закончу, предложив следующий пример, который можно использовать в качестве метафоры того, что может произойти, когда мы очищаем архив новизны. В старых приключенческих играх, таких как Metroid, иногда игроку приходится возвращаться в предыдущие места, чтобы найти то, что он либо пропустил (из-за недостатка знаний), либо из-за открывшихся новых возможностей (улучшения, которые открывают новые пути). Если мы рассматриваем поиск новинок как архив посещенных мест, а процесс поиска новинок — как накопитель информации, то получается, что возвращение в места, где вы уже были, может быть полезным после достаточного развития. Тогда может возникнуть вопрос: существует ли алгоритмический или оптимальный подход к управлению архивом новинок?

Спасибо за чтение, следите за новостями @meleeNeat в Твиттере. Как всегда, буду рад вопросам, критике и отзывам.