Мысли и теория

Thrill-K: план нового поколения машинного интеллекта

Переосмысление разделения и построения знаний для долгосрочного жизнеспособного ИИ

Интеллект, будь то человеческий или машинный, основан на знаниях. Очень важно найти правильный баланс между эффективностью интеллекта (чего он может достичь) и его эффективностью (сколько он стоит в энергии или другой валюте). В своей основной презентации WAIC21 я представляю когнитивный ИИ и предлагаю людям и интеллектуальным машинам применять принцип, основанный на трех уровнях знаний - 3LK, а именно: мгновенный, резервный и извлеченные внешние знания из-за факторов масштаба, стоимости, разнообразия задач и постоянной адаптации. Thrill-K будет представлен как проект архитектуры систем искусственного интеллекта, реализующий принципы 3LK для искусственного интеллекта следующего поколения.

Это последнее десятилетие было временем глубокого обучения (DL) с алгоритмическими изменениями, включая реализацию глубоких нейронных сетей (DNN), долговременной краткосрочной памяти (LSTM) и, конечно же, трансформаторов. Мы также видели инновации в таких фреймворках, как TensorFlow, PyTorch и других, которые управляли новым оборудованием, таким как графические процессоры или процессоры со специальными процессорами и модулями обработки нейронных сетей (NN). DL послужила жизнеспособной технологией и скоро будет применима в таких сегментах, как транспорт, финансовые услуги и инфраструктура.

Несмотря на все великие достижения и потенциал DL, быстро приближается следующее поколение архитектуры для более продвинутого искусственного интеллекта. К 2025 году мы, вероятно, увидим категорический скачок в компетенциях, демонстрируемых ИИ, и машины станут заметно умнее. Однако необходимы изменения для устранения некоторых фундаментальных ограничений, как объяснялось в моей последней статье Рост когнитивного ИИ. Здесь я исследую новый архитектурный подход к интеграции знаний в системы ИИ, который может помочь смягчить последствия. некоторые из фундаментальных ограничений сегодняшних систем искусственного интеллекта.

Три уровня знаний

Живые организмы и компьютерные системы в равной степени должны обладать мгновенным знанием, чтобы иметь возможность быстро реагировать на внешние события. Эти знания представляют собой прямую функцию ввода-вывода, которая реагирует на события или последовательности в хорошо освоенной области. Кроме того, люди и продвинутые интеллектуальные машины накапливают и используют более широкие знания с некоторой дополнительной обработкой. Я называю этот второй уровень резервными знаниями.

Действия или результаты, основанные на этих резервных знаниях, требуют обработки и внутреннего разрешения, что делает их медленнее, чем мгновенные знания. Однако он будет применим к более широкому кругу ситуаций. Людям и интеллектуальным машинам необходимо взаимодействовать с огромным объемом мировых знаний, чтобы они могли извлекать информацию, необходимую для решения новых задач или увеличения резервных знаний. Какой бы объем знаний ни находился в человеческом мозгу или в границах системы искусственного интеллекта, за пределами или в последнее время имеется значительно больше информации, которая требует извлечения. Мы называем этот третий уровень извлеченными внешними знаниями.

Люди и интеллектуальные машины должны иметь доступ ко всем трем уровням знаний - мгновенным, резервным и извлекаемым извне - чтобы уравновесить масштаб и стоимость со способностью выполнять широкий спектр задач и непрерывно адаптироваться. Для демонстрации я сопоставлю несколько примеров с тремя уровнями знаний. Давайте применим их к двум ситуациям: врач прописывает пациенту два лекарства и водитель, едущий на машине по району.

· Мгновенное знание. Пациент спрашивает своего врача о приеме лекарства от сердечного приступа и обычного обезболивающего. Она сразу же одобряет это, «не думая», потому что эти два лекарства применяются регулярно и безопасно. Ответ мгновенный и автоматический.

Точно так же, представляя свою модель Система 1 / Система 2 (основанная на книге Даниэля Канемана Мыслить быстро и медленно), Йошуа Бенжио привел пример водителя, идущего по очень знакомому маршруту и ​​без необходимости много внимания. Знание дороги, маршрута и динамики движения происходит мгновенно. Бенджио описал этот режим как интуитивный, быстрый, бессознательный и привычный.

· Резервные сведения. Пациент спрашивает своего врача о приеме лекарства от сердечного приступа и о менее распространенном лекарстве от инфекций легких. Хотя врач никогда раньше не назначал эти два лекарства вместе, она понимает их основные механизмы и возможные взаимодействия. Ей необходимо использовать свою более широкую базу знаний и использовать аргументы, чтобы прийти к выводу о том, можно ли управлять ими вместе.

В примере с водителем Бенжио велел ему проехать по незнакомой местности со сложными дорожными условиями. Теперь водителю необходимо учитывать все визуальные данные и уделять внимание безопасному управлению ситуацией. Он назвал это мышление Системы 2 и охарактеризовал его как медленное, логичное, последовательное, сознательное, лингвистическое и алгоритмическое, с планированием и рассуждением.

· Полученные внешние данные. Пациент спрашивает своего врача о введении лекарства от сердечного заболевания вместе с новым лечением COVID-19, которое было одобрено только в прошлом месяце и содержит совсем недавние исследования, которые врач не изучал. пока что. Врач может проконсультироваться с внешними знаниями, а также применить существующие знания и навыки для получения соответствующей дополнительной информации и рекомендаций.

Что касается примера с вождением, водитель мог заехать в блокпост на дороге. Водитель может вытащить свой телефон, чтобы посмотреть карту местности или получить указания по GPS, чтобы узнать, как действовать дальше. Эта ситуация может быть разрешена только путем поиска дополнительных внешних знаний. Применяя терминологию 3LK, мы скажем, что они использовали третий уровень извлеченных внешних знаний.

Сочетание этих трех уровней знаний позволяет людям эффективно реагировать на широкий спектр задач и ситуаций - от полного освоения до получения и использования невиданной ранее информации. Часто объем и разнообразие задач слишком широки, чтобы их можно было освоить, и освоение нового набора задач может быть дорогостоящим. Резервные знания могут существенно расширить диапазон ответов со знаниями, доступными для рассуждений в новых ситуациях. Однако объем потенциально релевантной информации огромен и меняется по мере развития мира и изменения интересов. Во многих реальных жизненных ситуациях необходим третий уровень извлеченных внешних знаний.

Envisioning Thrill-K - три уровня архитектуры знаний для машинного интеллекта

Thrill-K (произносится как «трил-кей») - это предлагаемый архитектурный план для систем искусственного интеллекта, которые используют три уровня знаний (3LK). Он предоставляет средства для представления знаний и доступа к ним на трех уровнях - в параметрической памяти для мгновенного получения знаний, в смежной глубоко структурированной базе знаний для обоснованного извлечения и доступа к обширным репозиториям цифровой информации, таким как Википедия, YouTube, средства массовой информации и т. Д.

В серии статей по классификации архитектур систем ИИ, ориентированных на информацию, я выделил три класса доступа к информации и ее использования: Системы с полностью инкапсулированной информацией (например, недавние системы сквозного глубокого обучения и языковые модели, такие как GPT-3 ), системы с глубоко структурированными знаниями (например, извлечение из графов знаний, таких как ConceptNet или Викиданные ), и системы на основе поиска с полуструктурированной смежной информацией (например, извлечение из Википедии) . В заключение был представлен класс 3 ++, объединяющий все три уровня знаний (см. Раздел Какая архитектура системы ИИ лучше всего подходит для этой задачи?). Эта инклюзивная архитектура класса 3 ++ - это то, что мы называем архитектурой трех уровней знаний (или Thrill-K).

На рисунке 2 представлена ​​схема многоуровневой системы искусственного интеллекта, поддерживающей более высокий интеллект. Эта системная диаграмма Thrill-K включает в себя все строительные блоки таких систем, однако поток (обозначенный стрелками) может меняться в зависимости от использования и конфигурации. В примере потока, показанном на диаграмме, последовательность предполагает NN, за которым следует KB, а затем, если необходимо, внешний ресурс. Прямой путь ввода-вывода с использованием мгновенных данных, закодированных в параметрической памяти. Если она обнаруживает неопределенность или низкую уверенность в прямом пути, система выполняет обоснованное извлечение из своей базы глубоких знаний. Эта база знаний основана на получении знаний на основе машинного обучения для обновления и обновления знаний по мере того, как новая информация становится актуальной и достаточно полезной для добавления. Наконец, если система ИИ не может найти необходимые знания, механизм поиска позволяет получить доступ и извлечь необходимую информацию из доступных репозиториев. Возможны и другие потоки. Например, если задачей ИИ является поиск в базе знаний или поиск абзацев во внешнем репозитории, те же строительные блоки будут настроены в другой последовательности.

Следует отметить, что хотя основной путь обработки изображен здесь как нейронная сеть, тот же принцип многоуровневого обучения будет применяться к другим типам машинного обучения с информацией, интегрированной в обработку как часть мгновенного пути ввода-вывода.

Ожидается, что объем информации на этих уровнях знаний будет другого масштаба. Резервные знания содержат на несколько порядков больше, чем мгновенные знания, а внешние знания затмевают объем внутренних резервных знаний. Хотя размер каждого уровня знаний будет зависеть от приложения, приблизительные оценки существующих источников знаний могут дать представление о масштабировании объема информации по трем уровням.

Например, даже очень большая языковая модель, такая как T5–11B, с ее матрицей весов более 40 ГБ, по-прежнему в 30 раз меньше, чем общий несжатый размер большого структурированного источника знаний, такого как Викиданные (1317 ГБ как от 1 июля 2021 г.). Викиданные, в свою очередь, в 30 раз меньше, чем текстовый корпус объемом 45 ТБ книг и веб-данных, используемый для обучения GPT-3. Хотя размер данных является лишь приблизительным показателем для измерения информации, 30-кратный коэффициент масштабирования может служить нижней границей для оценки увеличения объема информации на каждом последующем уровне знаний в системе Thrill-K. Этот конкретный коэффициент масштабирования предназначен только для языковых систем. Однако, поскольку структуры знаний для этой архитектуры спроектированы как мультимодальные по своей природе, этот фактор одномодальности является значительной недооценкой фактического коэффициента масштабирования.

Аргументы в пользу эффективности как движущей силы масштабных жизнеспособных решений

По мере развития Homo sapiens за последние несколько сотен тысяч лет их интеллектуальные возможности значительно выросли. Существенно увеличился объем информации и круг задач, которые они должны решить. По некоторым оценкам, размер мозга оставался примерно таким же в течение последних 200 000 лет, что уравновешивает его эволюционную ценность с сжиганием 20 процентов нашей пищи с мощностью около 15 ватт. Что, если бы человеческому мозгу потребовалось 10-кратное увеличение объема для поддержки этого нового диапазона? Разница заключается в том, насколько эффективно предоставленные ресурсы используются в головном мозге и в новейших субструктурах, таких как неокортекс.

Большая часть исследовательской работы в области ИИ сосредоточена на результатах, при этом преуменьшая эффективность моделей с точки зрения размера набора данных, специализированных вычислительных конфигураций, затрат на вычисления и энергию, а также воздействия на окружающую среду. Поскольку ожидается, что технология проникнет во все отрасли, повлияет на большую часть вычислений и будет развернута повсюду, от крупных центров обработки данных до периферийных устройств, эффективность должна быть основным соображением наряду с достигнутыми возможностями и результатами.

Размер имеет значение! Следовательно, будущий генератор предварительно обученного языка Transformer 6 (GPT-6) вряд ли будет широко распространенным и используемым решением ИИ. Если подход GPT будет продолжаться в последующих поколениях, он может развиваться с экспоненциальным ростом ряда параметров, размера набора данных, вычислительных затрат и многого другого. Как только он включает мультимодальное представление мира, начиная с Vision + Language, он будет иметь дополнительные порядки величины данных и параметров.

Будущие модели, для обучения которых требуются петабайты данных, стоят сотни миллионов долларов и требуют массивных вычислительных систем для выполнения логического вывода, будут нежизнеспособными. Текущая тенденция включения всей потенциально важной информации в параметрическую память предполагает, что модели с параметрами более 1,5T (например, Switch-C и Wu Dao) не могут продолжаться более 2–3 лет, прежде чем они станут довольно эзотерическими из-за соображения доступности.

Кодирование знаний на прямом пути к быстрому исполнению обходится дорого. Знания, непосредственно закодированные с помощью пути выполнения от ввода к выводу, усложняют и расширяют этот путь. Языковая модель, применяемая в прямом пути, который увеличивается в 100 раз в размере для размещения более мгновенных знаний, будет значительно более затратной с точки зрения вычислений. Придется переместить больший тензор и выполнить больше тензорной арифметики. Несмотря на то, что существуют методы уменьшения объема перемещения данных и вычислений нейронной сети (например, обрезка, дистилляция, динамическое выполнение и т. Д.), Четкая общая тенденция сохраняется: затраты на электроэнергию растут по мере увеличения размеров модели NN.

Признание трех уровней знаний позволяет перемещать большую часть информации из параметрической памяти NN в соседний граф знаний (или даже хранить в больших информационных хранилищах для извлечения при необходимости). Информация и модели, которые находятся за пределами параметрической памяти, являются «пассивными», поскольку они не активируются и не должны расходовать энергию до тех пор, пока к ним не будет осуществлен доступ. Обратите внимание, что этот стратифицированный подход категорически отличается от полностью инкапсулированных архитектур, таких как GPT-3, в которых предполагается, что любая информация, которая может использоваться системой AI, должна быть закодирована в ее однослойной параметрической памяти.

Например, отвечая на вопросы об истории, ИИ не нужно тратить энергию на целый раздел знаний о геологии, которые могут оставаться бездействующими и пассивными в непараметрической памяти. Более того, во время обучения нет необходимости подвергать обученную модель всей информации, которая будет находиться в непараметрической памяти. Нет необходимости отягощать процесс обучения запоминанием множества фактов и взаимосвязей, если модель может извлекать или извлекать информацию, если и когда это необходимо, во время тестирования и вывода.

Принцип систем, которые имеют различные уровни масштаба и эффективности, кажется, применим во многих разработанных и эволюционирующих системах. Например, базовая компьютерная архитектура имела несколько уровней доступной информации. Первый уровень является оперативным / мгновенным в динамической кэш-памяти ЦП, которая легко доступна для использования. Другой уровень - это основная память, которая на порядки больше. Информация извлекается из основной памяти в кеш и выполняется по мере необходимости. Еще дальше находятся диски и хранилище общей платформы.

Объем информации на несколько порядков превышает объем оперативной памяти, и информация извлекается по мере необходимости. На каждом последующем уровне емкость как минимум на 2–3 порядка выше, затраты на поддержание каждой части информации, когда она не используется, намного ниже, время ожидания доступа к информации больше (более подробная информация менее целесообразна) и информация доступен только при необходимости.

Я считаю, что биологические системы используют аналогичную «шестеренчатую» систему для решения широкого круга задач по соотношению масштабов и эффективности. Давайте в качестве примера рассмотрим использование организмом сахара. На рабочем уровне глюкоза циркулирует в кровотоке и легко доступна для превращения в АТФ и использования в качестве источника энергии. Некоторая энергия, полученная в результате питания, превращается в жир для длительного хранения или в гликоген, который сохраняется в клетках печени и мышц. Это хранилище может высвобождать энергию обратно в мышцы во время упражнений, когда требуется дополнительная энергия. Третий уровень - это внешний мир, который является высшим источником энергии для тела.

Система, которая имеет две внутренние «шестерни» - оперативную / мгновенную и доступную в резерве, может создавать диапазон порядков величин между мгновенно-но-ограниченным и извлеченным-большим. Добавление доступа к внешним ресурсам добавляет третью передачу, доступ к которой медленнее, но огромен. Сочетание трех уровней создает очень широкий диапазон операций с внутренними и внешними ресурсами.

Thrill-K - важный вклад в надежность, адаптацию и высокий интеллект

Хотя разделение знаний на три уровня важно для масштабирования, стоимости и энергии, оно также необходимо для расширения возможностей, предоставляемых системами искусственного интеллекта. Это рассматривается путем оценки вероятных преимуществ системы Thrill-K по сравнению со сквозной системой DL (называемой системой Класс 1, полностью инкапсулированная информация).

По определению, Thrill-K - это расширенная архитектура, которая включает в себя способную NN, и, следовательно, любая возможность, которая хорошо обслуживается NN, может быть реализована расширенной системой. Вот некоторые возможности, которые могли бы быть лучше поддержаны системой Thrill-K, которая объединяет глубоко структурированные знания для извлечения и доступа к внешним репозиториям.

· Улучшенное понимание мультимодальных машин на основе структур знаний, охватывающих многогранную объектно-ориентированную семантику.

· Повышенная адаптивность к новым обстоятельствам и задачам за счет извлечения / поиска новой информации из репозиториев / базы знаний, недоступной во время предварительного обучения или тонкой настройки.

· Усовершенствованная обработка дискретных объектов, онтологий, таксономий, причинно-следственных связей и широкое запоминание фактов

· Повышенная надежность за счет использования символических сущностей и абстрактных концепций

· Интегрированные знания здравого смысла, которые могут не присутствовать непосредственно в обучающем наборе данных

· Включены символические рассуждения и объяснимость по сравнению с явно структурированным знанием

Заключение: трехуровневое знание и его воплощение в архитектуре машины Thrill-K

Как указывалось ранее, за последнее десятилетие произошел значительный скачок в возможностях искусственного интеллекта за счет развития и использования DL. Несмотря на некоторые разочарования и неудачи в развертывании, выдающиеся возможности DL могут существенно повлиять на многие отрасли и области обучения. Однако современные системы дистанционного обучения не обладают рассуждениями и высоким уровнем познания, которые требуются для решения многих задач, и для этого нам необходимо найти новый подход.

ИИ приходит на рабочие места, в дома и автомобили, и ИИ должен быть гораздо более эффективным и более способным применять более высокий уровень автономного мышления, близкий к человеческому. Он должен быть адаптивным и способным к восприятию, абстрагированию, рассуждению и обучению. Представьте себе систему ИИ, которая выходит далеко за рамки статистических корреляций, понимает язык, объединяет знания и рассуждения, адаптируется к новым обстоятельствам, является более надежной и настраиваемой.

Это не общий искусственный интеллект или сознательные машины, а вместо этого более способные когнитивные машины, которые могут рассуждать на основе структур глубокого знания, включая факты, декларативное знание, причинное знание, условное и контекстное знание, а также реляционное знание. Достижение следующего уровня машинного интеллекта потребует нейро-символического подхода, ориентированного на знания, который объединяет лучшее из того, что НС могут предложить, с дополнительными конструкциями, такими как иерархия знаний, с соответствующими дополнительными сильными сторонами.

Применяя трехуровневую иерархию знаний и системную архитектуру Thrill-K, мы можем создавать системы и решения будущего, которые, вероятно, будут разделять знания на этих трех уровнях для создания устойчивого и жизнеспособного когнитивного ИИ. Они включают:

1) Мгновенное знание: часто используемые и непрерывные функции, которые можно эффективно аппроксимировать, будут находиться на самом быстром и дорогостоящем уровне, в параметрической памяти для NN или другой рабочей памяти для другой обработки машинного обучения.

2) Резервные знания: знания, которые ценны для системы ИИ, но не так широко используются, или требуют повышенной силы представления для дискретных объектов или должны быть обобщенными и гибкими для множества новых применений в смежной базе знаний с необходимостью добыча

3) Извлеченные внешние знания: остальная обширная информация мира, которая может оставаться за пределами системы ИИ до тех пор, пока она может быть извлечена при необходимости.

Thrill-K предлагает новый проект этой будущей архитектуры искусственного интеллекта. Он проникнет в архитектуру искусственного интеллекта во всех системах и отраслях и предложит метод эффективного и действенного построения интеллекта. Новое поколение архитектуры искусственного интеллекта приближается, и мы должны работать вместе, чтобы опробовать новые подходы, чтобы мы могли подтолкнуть современные технологии к созданию более эффективных и подотчетных систем искусственного интеллекта для всех.

Ссылки

· Певица Гади. Рост когнитивного ИИ. Навстречу науке о данных, 6 апреля 2021 г.

· Канеман, Даниэль. Мыслить быстро и медленно, Penguin Books, 2011.

· Бенжио, Йошуа (11 декабря 2019 г.). От глубокого обучения Системы 1 к глубокому обучению Системы 2. Презентация на NeurIPS2019.

· Браун, Том и др. Языковые модели - немногие изучающие.
arXiv: 2005.14165
, 28 мая 2020 г.

· Певица Гади. Знание: классификация, ориентированная на информацию в ИИ. LinkedIn, 16 февраля 2021 г.

· Певица Гади. Центр знаний: системы искусственного интеллекта с глубоко структурированными знаниями. На пути к науке о данных, 9 июня 2021 г.

· Певица Гади. Знание: информационная классификация в ИИ - класс 2. LinkedIn, 23 марта 2021 г.

· Робсон, Дэвид. Краткая история мозга. New Scientist, 21 сентября 2011 г.

· Федус В., Зоф Б. и Шазир Ноам. ПЕРЕКЛЮЧАТЕЛЬНЫЕ ТРАНСФОРМАТОРЫ: МАСШТАБИРОВАНИЕ ДО ТРИЛЛИОНА МОДЕЛЕЙ ПАРАМЕТРОВ С ПРОСТОЙ И ЭФФЕКТИВНОЙ РЕЗЬБОЙ. ArXiv: 2101.03961, 11 января 2021 г.

· Фэн, Коко. Технологическая война между США и Китаем: финансируемые Пекином исследователи искусственного интеллекта превосходят Google и OpenAI благодаря новой модели языковой обработки. South China Morning Post, 2 июня 2021 года.

· Вассерблат, Моше. Лучшие практики для классификации текста с дистилляционной частью (3/4) - чувствительность к порядку слов (WOS). LinkedIn, 8 июня 2021 г.

· Вассерблат, Моше. Лучшие практики для классификации текста с дистилляцией (часть 1/4) - Как добиться результатов BERT с помощью крошечных моделей. LinkedIn, 17 мая 2021 г.

· Вассерблат, Моше. Лучшие практики для классификации текста с дистилляцией (Часть 2/4) - Сложные варианты использования. LinkedIn, 26 мая 2021 г.

· Е, Андре. Вы не поймете нейронные сети, пока не поймете теорему универсального приближения. Аналитика Видхья, 30 июня 2020 года.

· Певица Гади. Понимание и посредством глубокого знания. Навстречу науке о данных, 6 мая 2021 г.

· Мимс, Кристофер. Беспилотные автомобили могут быть удалены за несколько десятилетий, независимо от того, что сказал Илон Маск Wall Street Journal, 5 июня 2021 года.

Эта статья основана на i мнениях, представленных в предыдущих статьях:

Рост когнитивного ИИ

Понимание и глубокое знание

И предыдущая серия, опубликованная в LinkedIn:

Возникновение эпохи знаний:

Часть 1. Далее машины становятся мудрее

Часть 2: Эффективность, расширяемость и познание: определение границ

Часть 3: Глубокие знания как ключ к более высокому машинному интеллекту

Исследования в области когнитивных вычислений: от глубокого обучения к более высокому машинному интеллекту

Гади Сингер - вице-президент Intel Labs, директор по исследованиям в области когнитивных вычислений.