Вступление

Область искусственного интеллекта пережила огромное развитие за последние два десятилетия или около того. В основе дисциплины ИИ лежит идея о том, что однажды мы сможем создавать машины, по крайней мере, такие же умные, как люди. Такие системы часто называют общим искусственным интеллектом.
Эти проблемы поднимают фундаментальные вопросы, которые ставят под сомнение наше понимание интеллекта. Что такое интеллект? Можем ли мы иметь математическое уравнение, которое измеряет интеллект произвольных машин?

В статье Универсальный интеллект: определение машинного интеллекта Шейн Легг и Маркус Хаттер раскапывают эту проблему. Они извлекают важные черты из ряда хорошо известных неформальных определений человеческого интеллекта и математически формализуют их, чтобы получить общую оценку интеллекта для произвольных машин.

Сущность интеллекта

Рассматривая различные неформальные определения интеллекта, мы наблюдаем в них некоторые сходства:
1. Интеллект рассматривается как свойство человека, который взаимодействует с внешней средой, проблемой или ситуацией.
2. Интеллект человека зависит от его способности добиваться успеха или «получать прибыль».
3. Интеллект - это не способность иметь дело с полностью известной окружающей средой, а, скорее, способность иметь дело с некоторым диапазоном возможностей, которые нельзя полностью предвидеть.

Объединив эти ключевые особенности, Шейн и Маркус придумали собственное неформальное определение интеллекта, которое дает нам сущность интеллекта в его самой общей форме:

Интеллект измеряет способность агента достигать целей в самых разных средах.

Определение машинного интеллекта

Неформальное определение, упомянутое выше, состоит из трех основных компонентов: агента, среды и целей.
Агент и среда должны иметь возможность взаимодействовать друг с другом и отправлять друг другу сигналы. Сигналы, отправляемые агентом в среду, - это действия, а сигналы, отправляемые средой агенту, - это восприятия.
Определение также требует наличия своего рода цель - не что иное, как цель, которую агент активно преследует, взаимодействуя со своим окружением.

Существование цели поднимает еще одну проблему: как агент знает, какова цель. Одна из возможностей может заключаться в том, что цель известна заранее, и эти знания встроены в агент. Однако это ограничивает агента одной целью. Нам нужен более гибкий способ информирования агента о его цели. С людьми это легко сделать с помощью языка. Однако мы не можем предполагать, что агент владеет языком достаточно высокого уровня, чтобы мы могли с ним общаться.
Чтобы преодолеть эту трудность, мы определяем другой сигнал, который показывает, насколько хороша текущая ситуация агента. Мы называем этот сигнал наградой. Тогда цель агента - просто максимизировать вознаграждение. В некотором смысле цель фиксирована, но мы не ограничиваем агента, поскольку не определили, что вызывает различные уровни вознаграждения.

восприятия содержат вознаграждения и часть, не связанную с вознаграждением, наблюдения.
Следовательно, цель в более широком смысле определяется средой, поскольку она определяет, когда и какие вознаграждения генерируются.
Это часто используемая структура в обучении с подкреплением.

Формализация основы

Взаимодействие агента и среды:
Агент отправляет информацию в среду, отправляя символы из некоторого конечного набора, который мы называем пространством действий, обозначенным A. Например, A: = {влево, вправо, вверх, вниз}. Точно так же среда посылает сигналы агенту с символами из конечного набора, называемого пространством восприятия, обозначенным P.. Каждое восприятие состоит из двух отдельных частей: наблюдения и награда. Пространство вознаграждения R - это подмножество рационального единичного интервала [0, 1] ∩ Q. Например, P: = {(холодный, 0,0), (теплый, 1,0), (горячий, 0,2)}, где первая часть в кортеже - это наблюдение, а вторая часть - награда. .
Для обозначения действий, наблюдений и наград мы используем a, o, r и индексируем их так, чтобы a¹ было первое действие агента, o¹ это первое наблюдение и аналогично r¹ это первая награда. Агент и окружение по очереди отправляют символы, которые создают историю наблюдений, вознаграждений и действий, таких как o¹r¹a¹o²r²a²o³r³a³…

Агент
Формально агент - это функция, обозначенная π, которая принимает в качестве входных данных текущую историю и выбирает следующее действие в качестве выходных. Затем мы можем представить агента как меру вероятности действий, обусловленных полной историей взаимодействия. Таким образом, π (a⁴ | o¹r¹a¹o²r²a²o³r³a³o⁴r⁴) - это вероятность действия a⁴ при условии, что текущая история - o¹r¹a¹o²r²a²o³r³a³o⁴r⁴. В ИИ агент будет машиной, поэтому π будет вычислительной функцией.

Среда
Среда, обозначенная μ, определяется аналогично агенту. В частности, вероятность o⁴r⁴ с учетом текущей истории взаимодействия o¹r¹a¹o²r²a²o³r³a³ дается вероятностной мерой μ (o⁴r⁴ | o¹r¹a¹o²r²a²o³r³a³).

Мера успеха
Теперь нам нужно формализовать понятие «прибыль» или «успех» для агента. Неформально мы знаем, что агент должен попытаться максимизировать размер получаемого вознаграждения, но для этого необходимо определить, как мы оцениваем вознаграждение в ближайшем будущем по сравнению с вознаграждением в более отдаленном будущем. В некоторых случаях мы можем захотеть, чтобы агент работал достаточно быстро, а в других мы могли бы заботиться только о том, чтобы он в конечном итоге достиг максимально высокого уровня производительности.
Мы определяем функцию значения V, которая дает нам ожидаемое будущее значение для данного агента и среды. V - это ожидаемое значение суммы вознаграждений в бесконечном будущем. Мы хотим, чтобы вознаграждения, возвращаемые средой, учитывали временные предпочтения. Чтобы решить проблему оценки вознаграждений, мы налагаем еще одно условие на вознаграждения, возвращаемые средой, которое дает нам:

Здесь ожидаемое значение берется по всем возможным последовательностям взаимодействия между агентом π и средой суммируемого вознаграждения μ. Добавляя дополнительное условие, что вознаграждение, возвращаемое средой, никогда не может превышать 1, мы нормализуем вознаграждения так, чтобы их сумма всегда была конечной. Это также помогает нам взвесить вознаграждение в разные моменты времени в будущем, что, по сути, определяет временные предпочтения.

Формальное определение машинного интеллекта
Чтобы определить общий показатель производительности, нам нужно найти способ объединить производительность агента во многих различных средах в единый общий показатель. Поскольку существует бесконечное количество сред, мы не можем просто взять равномерное распределение по ним. Математически мы должны взвешивать одни среды выше, чем другие. Для этого мы взвешиваем среды в зависимости от их сложности.
Теперь нам нужно измерить сложность данной среды. Для этого мы используем Колмогоровская сложность. Колмогоровская сложность двоичной строки x определяется как длина самой короткой программы, которая вычисляет x:

Где p - двоичная строка, которую мы вызываем программой, l (p) - длина этой строки в битах, а U - универсальная машина Тьюринга с префиксом, называемая эталонной машиной.

Важным свойством K является то, что он почти не зависит от выбора U. Чтобы понять, почему, подумайте, что произойдет, если мы переключимся с U в приведенном выше определении K на какую-нибудь другую универсальную машину Тьюринга U. Благодаря свойству универсальности U ′ существует программа q, которая позволяет U ′ моделировать U. Таким образом, если мы дадим U ' и q, и p в качестве входных данных, он может имитировать U запуск p и тем самым вычислить U (p). Это делает K отличным универсальным средством измерения сложности.
Используя простую схему кодирования, мы можем выразить каждую среду как двоичную строку, которая является описанием среды. Это позволяет нам определить сложность среды μ как K (μ). Мы будем использовать эту сложность среды как вес, связанный с будущей ценностью данной среды.

Теперь мы можем определить формальную меру интеллекта произвольных машин как:

Где, E - пространство всех вычислимых суммируемых мер окружающей среды с вознаграждением по отношению к эталонной машине U, а K - функция сложности Колмогорова. Υ (π) - это универсальный интеллект агента π.

По сути, универсальный интеллект агента - это взвешенная сумма производительности агента в широком диапазоне сред.

использованная литература

Легг С. и Хаттер М. Универсальный интеллект: определение машинного интеллекта. (ArXiv: 0712.3329v1).

Если вы узнали что-то новое из этой статьи, нажмите значок 👏, чтобы поддержать это. Это поможет другим пользователям Medium найти его.
Поделитесь этим, чтобы другие могли его прочитать.