Гато, последний из Deepmind. К настоящему ИИ?

Самая продвинутая универсальная сеть на сегодняшний день

Гато, последний из Deepmind. К настоящему ИИ?

Гато может играть в игры, генерировать текст, обрабатывать изображения и управлять роботами-манипуляторами. И даже не слишком большой. Появится ли настоящий ИИ?

Область глубокого обучения быстро развивается, и последняя работа Deepmind — хороший тому пример. Их модель Gato может научиться играть в игры Atari, генерировать реалистичный текст, обрабатывать изображения, управлять роботами-манипуляторами и т. д. — и все это с помощью одной и той же нейронной сети. Вдохновленный крупномасштабными языковыми моделями, Deepmind применил аналогичный подход, но вышел за рамки текстового вывода.

Как работает Гато

Этот новый ОИИ (после Искусственного общего интеллекта) работает как многомодальная, многозадачная, многовариантная сеть, что означает, что одна и та же сеть (т.е. единая архитектура с единым набором весов) может выполнять все задачи, несмотря на то, что по своей сути используются различные виды входов и выходов.

Хотя препринт Deepmind, представляющий Гато, не очень подробен, он достаточно ясен, поскольку сильно укоренен в трансформерах, используемых для обработки естественного языка и генерации текста. Тем не менее, он обучается не только с текстом, но и с изображениями (уже с такими моделями, как Dall.E), крутящими моментами, действующими на роботизированные руки, нажатиями кнопок во время компьютерных игр и т. д. По сути, Гато одновременно обрабатывает все виды входных данных. и решает из контекста, следует ли выводить понятный текст (например, для чата, суммирования или перевода текста и т. д.), или мощность крутящего момента (для приводов роботизированной руки), или нажатия кнопок (для игр) и т. д.

Таким образом, Gato демонстрирует универсальность архитектур на основе трансформаторов для машинного обучения и показывает, как их можно адаптировать к различным задачам. В последнее десятилетие мы видели удивительные приложения нейронных сетей, специализирующихся на играх, переводе текста, подписях к изображениям и т. д. Но Gato достаточно универсален, чтобы выполнять все эти задачи самостоятельно, используя единый набор весов и относительно простую архитектуру. Это противоречит специализированным сетям, которые требуют интеграции нескольких модулей для совместной работы, интеграция которых зависит от решаемой проблемы.

Более того, что впечатляет, Gato даже близко не подходит к самым большим нейронным сетям, которые мы видели! Имея «всего» 1,2 миллиарда весов, он сравним с языковой моделью OpenAI GPT-2, т.е. более чем на 2 порядка меньше, чем GPT-3 (со 175 миллиардами весов) и другими современными сетями обработки языков.

Результаты Gato также подтверждают предыдущие выводы о том, что обучение на данных разного характера приводит к лучшему усвоению предоставленной информации. Так же, как люди познают свой мир из нескольких одновременных источников информации! Вся эта идея полностью входит в одну из самых интересных тенденций в области машинного обучения последних лет: мультимодальность — способность обрабатывать и интегрировать различные типы данных.

О потенциале ОИИ на пути к настоящему ИИ?

Мне никогда не нравился термин «искусственный интеллект». Раньше я думал, что просто ничто не может победить человеческий мозг. Однако…

Потенциал новых ОИИ намного интереснее и, безусловно, мощнее, чем тот, что был всего год назад. Эти модели способны решать множество сложных задач практически с помощью одного программного обеспечения, что делает их очень универсальными. Если бы одна такая модель, усовершенствованная, скажем, через десять лет, была запущена внутри роботоподобного оборудования со средствами для передвижения и с соответствующими периферийными устройствами ввода и вывода, мы вполне могли бы сделать серьезные шаги в создании настоящих искусственных существ с настоящим искусственным интеллектом. В конце концов, наш мозг представляет собой очень сложную нейронную сеть, соединяющую и интегрирующую сенсорную информацию для вывода наших действий. С нигилистической точки зрения ничто не мешает этой обработке данных происходить автоматически, а не органически.

Всего 3 года назад я бы абсолютно ничего такого не сказал, особенно о том, что ИИ когда-нибудь может стать реальным. Теперь я не так уверен, и мнение сообщества похоже: теперь они предполагают, что к 2030 году у нас могут быть машинные системы с такими же универсальными рассуждениями и задачами по решению проблем, как у людей. По прогнозам, это будет около 2200 года. всего 2 года назад, и постепенно снижается:

Когда будет разработана, протестирована и широко известна первая слабо общая система искусственного интеллекта?
С самого начала исследования в области искусственного интеллекта (ИИ) была разработка машинного…www.metaculus.com

Хотя это всего лишь слепые прогнозы без надежного моделирования, тенденция действительно отражает гигантские шаги, которые предпринимает эта область. Теперь я не вижу ничего невероятного в том, что один-единственный робот может сегодня играть с вами в шахматы, а завтра скрэблить, поливать ваши растения, когда вас нет дома, даже принимать собственные решения в зависимости от прогнозов погоды и того, как выглядят ваши растения, разумно резюмировать для вас новости, готовить еду и почему бы даже не помочь вам развить ваши идеи. Универсальный ИИ может появиться раньше, чем мы думаем.

Ключ читает

Препринт Deepmind о Гато на arXiv:

Универсальный агент
Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход к созданию единого универсального агента…arxiv.org

На сайте Deepmind:

Универсальный агент
Вдохновленные прогрессом в крупномасштабном языковом моделировании, мы применяем аналогичный подход к созданию единого…www.deepmind.com

О мультимодальности в машинном обучении:

Мультимодальное машинное обучение | MultiComp
Мир, окружающий нас, включает в себя множество модальностей — мы видим объекты, слышим звуки, чувствуем текстуру, обоняем запахи и т. д.multicomp.cs.cmu.edu

Некоторые из моих статей об использовании GPT-3 и VQGAN-CLIP, с которыми я много экспериментировал, уделяя особое внимание веб-разработке:

Как работает эта программа «искусственного сновидения и как с ее помощью можно создавать собственные произведения искусства
Вам не нужно знать программирование — достаточно иметь учетную запись Google. Вот статья прямо в точку, обзор…towardsdatascience.com»

Проект веб-чат-бота, модуль 2: ответы, сгенерированные с помощью GPT-3, с помощью базы данных для…
Вторая часть этого проекта, охватывающая веб-программирование, математику, искусственный интеллект и большена пути к datascience.com

Разработка тестов для измерения знаний GPT-3 по фундаментальным наукам
Могут ли студенты изучить новейшую языковую модель OpenAI и использовать ее в качестве круглосуточного консультанта? Могут ли студенты использовать его для…towardsdatascience.com

Модели, подобные GPT-3, с расширенным обучением могут стать будущими репетиторами 24/7 для студентов-биологов
Несмотря на довольно обескураживающие результаты по другим предметам, GPT-3 оказывается неплохим в биологии, тем более, если это…towardsdatascience.com

www.lucianoabriata.com Пишу и снимаю обо всем, что лежит в сфере моих широких интересов: природа, наука, технологии, программирование и т. д. Стать участником Medium , чтобы получить доступ ко всем его историям (партнерские ссылки платформы, за которые я получаю небольшой доход бесплатно для вас) и подписаться, чтобы получать мои новые истории по электронной почте. Чтобы проконсультироваться по поводу небольших вакансий, посетите мою страницу услуг здесь. Вы можете связаться со мной здесь.

Гато, последний из Deepmind. К настоящему ИИ?

Самая продвинутая универсальная сеть на сегодняшний день