На «награды достаточно»

7 критиков.

1/7 Приора

Приории — это предубеждения агента по отношению к некоторым вещам, предположительно более полезным. Например, эволюция дает нам множество предубеждений, т.е. все виды человеческого поведения, инвариантные к культуре. Это отмечают авторы.

В своей статье они приходят к идее фиксированной, ограниченной способности, которая подразумевает ограниченное предварительное знание. Они говорят, что вместо этого мы можем склоняться к приобретенным знаниям в более сложных условиях. На мой взгляд, эта идея мощна, но главная проблема заключается в том, что пространство поиска в сложных средах растет намного быстрее, чем наши вычислительные мощности. Пространства поиска для общего интеллекта огромны. Нам нужны сильные индуктивные смещения.

2/7 Утилитаризм

Другого моего критика, несколько философского, до сих пор не возникло. Это критика тавтологического аспекта максимизации вознаграждения или эгоизма. «Вы делаете что-то, потому что это хорошо для вас» — это объяснение поведения с точки зрения личной полезности, которое я считаю правильным, но в то же время бесспорным. В этих рамках можно объяснить все. Гипотеза о том, что вознаграждения достаточно, очень похожа на предыдущий пример. Тавтологические вещи сами по себе не имеют ценности, хотя идея может помочь переориентировать исследования на реальные решения. Я уверен, что у философов были бы гораздо лучшие аргументы против утилитаризма.

3/7 Проблема оптимизации

Это потенциальное принятие желаемого за действительное: предположение, что поведение, которое максимизирует некоторые вознаграждения, подразумевает, что «мы должны максимизировать эти вознаграждения, чтобы получить такое поведение». Это сложно, но я думаю, что это главная мысль статьи. Если мы сможем максимизировать вознаграждение, то, по-видимому, мы добьемся разумного поведения. Можем мы? Это может включать более сложные вещи. Аргумент пространства поиска применим и здесь.

4/7 Обучение в автономном режиме

Они критикуют офлайн-обучение. Разница между онлайн- и офлайн-обучением невелика, поскольку офлайн-алгоритм, обучаемый время от времени, представляет собой онлайн-алгоритм (см. «Обход монстра»). В любом случае, обучение с подкреплением как таковое не имеет особого преимущества с точки зрения внераспределенного обобщения: данные, которые являются новыми, являются новыми для всех. Насколько адаптивны или онлайн алгоритмы, это другой вопрос. И мы, люди, спим и мечтаем, это довольно офлайн.

5/7 Какая награда?

Мне легко представить: с одной совершенной наградой может возникнуть разумное поведение. Однако можем ли мы получить награду, которая не была бы такой редкой? Можем ли мы получить награду, которая полезна?

6/7 МДП, МДП!

Последней критикой является проблема частичной наблюдаемости. Хотя формулировка в статье принимает это во внимание, она принципиально отличается от большинства исследований RL. Проблема памяти до сих пор не решена, и авторы в основном работали с МДП.

7/7 Где мета-обучение?

Если вознаграждение достаточно для того, чтобы обучающийся агент развил общий интеллект (здесь мы предполагаем, что у нас действительно есть этот достаточно частый сигнал вознаграждения), то где мета-обучение?

Я имею в виду следующее: беря пример с белки, которая пытается свести голод к минимуму, и для этого развивает множество навыков. А как насчет алгоритма, который разрабатывает алгоритм? Как белка учится учиться быстрее или лучше? Например, как безопасный алгоритм возникает только из вознаграждения? Или возьмем пример с младенцем. Должны ли мы сосредоточиться на воссоздании его метода обучения или на изучении его метода обучения? В нашем случае эволюция — это наш алгоритм метаобучения.

Если бы мне нужно было разработать алгоритм белки, у меня должен быть доступ ко многим жизням белки (эпизодам), чтобы он мог совершать ошибки и выучил хорошую политику белки. Однако я не могу этого сделать, если у меня есть только одна белка. Что еще более важно, как я могу разработать (как это сделала эволюция) метод обучения? Авторы не дают на это ответа, и ответ, скорее всего, не Q-обучение.

В качестве примера возьмем сигнал вознаграждения «минимизируй боль». Если есть алгоритм обучения, он может научиться минимизировать боль. Но если есть алгоритм метаобучения, то он может научиться агрессивно исследовать, когда ему больно, и действовать осторожно, когда ему комфортно. Это мета-обучение, я думаю, отсутствует в статье. В традиционном RL алгоритм обучения может быть эпсилон-жадным, в то время как алгоритм метаобучения настроит эпсилон на адекватное значение.

В качестве примеров функций вознаграждения они приводят голод или размножение, которые, конечно же, являются частью наших инстинктивных побуждений, но игнорируют тот факт, что настоящим алгоритмом метаобучения была эволюция, а эволюция не максимизирует вознаграждение, это просто так.

В любом случае РЛ великолепен.