Лукаш Кайзер присоединился к Google Brain в 2013 году. Он переехал из Французского национального центра научных исследований. В Google Brain он был соавтором нейронных моделей для машинного перевода, синтаксического анализа и других алгоритмических и генеративных задач, а также соавтором системы TensorFlow и библиотеки Tensor2Tensor.

Расширенное обучение seq2seq

Исследователи глубокого обучения начали изучать обработку естественного языка - область исследований искусственного интеллекта, посвященную взаимодействию человека и машины с языками. Однако это была трудная задача.

«Когда нейронные сети только появились, они были созданы для распознавания изображений и обработки входных данных с одинаковым размером пикселей. Предложения - это не то же самое, что изображения ». Лукаш говорит.

Магия глубокого обучения не проявлялась в НЛП до тех пор, пока исследователь мозга Google Илья Суцкевер, Ориол Виньялс и Куок Ле не предложили последовательное обучение в своей статье 2014 года от последовательности к последовательному обучению с помощью нейронных сетей. Это архитектура сквозного кодировщика-декодера, построенная на рекуррентной нейронной сети (RNN) и долговременной короткой памяти (LSTM) для отображения последовательных данных, таких как тексты и документы, в вектор фиксированной длины.

Это означает, что вместо того, чтобы знать что-либо о грамматиках и словах, нейронная сеть может быть обучена только путем написания последовательностей - до тех пор, пока в сети достаточно данных для обучения. Ниже приведен пример преобразования дерева синтаксического анализа в последовательность.

Однако модель была далека от идеала: модель плохо работала при обучении на стандартных наборах данных синтаксического анализа, аннотированных людьми, таких как 1 млн токенов, и страдала от таких проблем, как неэффективность данных.

Через три месяца после публикации учебной статьи seq2seq Кайзер и его сотрудники Google Brain сделали шаг вперед, предложив модель обучения seq2seq с повышенным вниманием, которая дает самые современные результаты при обучении на большом синтетическом корпусе. Было обнаружено, что механизм внимания является важным расширением, позволяющим моделям уделять больше внимания некоторым ключевым словам каждого предложения. В результате модель может хорошо обрабатывать длинные предложения, обеспечивая при этом одинаковую производительность с относительно небольшим набором данных. Другими подходами к обучению модели на небольшом наборе данных без ущерба для производительности могут быть отсев, снижение достоверности и нормализация уровня.

Результат был впечатляющим: новая модель, обученная на небольшом наборе данных синтаксического анализа с аннотациями человека, может соответствовать производительности стандартного синтаксического анализатора, такого как BerkeleyParser. Когда модель была обучена на наборе данных только с деревьями синтаксического анализа с высокой степенью достоверности, она достигла показателя F1 92,5 в разделе 23 WSJ - нового уровня техники.

Исследование Суцкевер и Кайзер заложило основу для нейронного машинного перевода Google (GNMT), которая представляет собой систему непрерывного обучения для автоматического перевода. Запущенный в сентябре 2016 года переводчик Google начал использовать NMT вместо статистических методов. Он улучшает качество перевода, изучая миллионы примеров. Сегодня Google Translate поддерживает более 100 языков.

Итак, насколько хорош Google Translate? По тестам WMT’14 для перевода с английского на французский и с английского на немецкий GNMT достигает самых современных конкурентоспособных результатов. Используя параллельную человеческую оценку набора отдельных простых предложений, он сокращает количество ошибок перевода в среднем на 60% по сравнению с производственной системой Google, основанной на фразах.

Внимание - это все, что вам нужно

Архитектура кодера-декодера, основанная на рекуррентной нейронной сети или сверточной нейронной сети, долгое время доминировала в способах построения моделей последовательностей. Но с этим связаны две проблемы: последовательный характер рекуррентной нейронной сети делает невозможными параллельные вычисления и увеличивает вычислительные затраты и время обучения; Трудно узнать зависимости между удаленными позициями.

«Когда я пойду к своим старым друзьям, я начну говорить с ним о вещах, о которых мы говорили 20 лет назад. Я сразу вспомнил, что там нужно. Эта вещь, которую многие называют долгосрочными зависимостями, кажется действительно важной проблемой, которую нужно решать », - сказал Кайзер.

В 2017 году исследовательская группа Кайзера объединилась с Университетом Торонто и выпустила статью Внимание - все, что вам нужно. По сути, в документе предлагается новая простая сетевая архитектура Transformer, основанная исключительно на механизмах внимания. Новая модель, которая по-прежнему является кодировщиком-декодером, избавляется от любых повторяющихся или сверточных строительных блоков.

Преобразователь использует два типа функций внимания: Масштабируемое внимание скалярных произведений, которое вычисляет функцию внимания по набору запросов одновременно, упакованных вместе в матрицу; и внимание с несколькими головами, которое обязательно представляет собой стек из нескольких уровней внимания, который позволяет модели совместно обращать внимание на информацию из разных подпространств представления в разных положениях.

В результате Transformer может быть обучен значительно быстрее, чем архитектуры, основанные на предыдущих моделях обучения seq2seq. В задачах перевода WMT 2014 с английского на немецкий и WMT 2014 с английского на французский эта модель достигает нового уровня развития.

Мне нужна всего одна модель

Кайзер стал свидетелем успеха глубокого обучения во многих задачах, но глубокое обучение не сможет достичь общего интеллекта, на который Кайзер и многие исследователи ИИ могли бы потратить всю свою жизнь. Почему? Потому что он хорош только для одной задачи. Для сравнения: человек имеет чутье обобщать один навык на множество других задач.

«Можем ли мы создать единую модель глубокого обучения для решения задач в нескольких областях?» Это вопрос, который возникает у него в голове.

В 2017 году команда Кайзера выпустила совместную исследовательскую работу One Model To Learn Them All с Университетом Торонто, в которой была представлена ​​MultiModel, единственная модель, которая дает хорошие результаты по ряду проблем, охватывающих несколько областей, включая классификация изображений, несколько задач перевода, подписи к изображениям, распознавание речи и задача синтаксического анализа английского языка. Директор Tesla AI Андрей Карпати написал в Твиттере: «One Model to Learn Them All - еще один шаг в попытке Google превратить себя в одну большую нейронную сеть».

Модель объединяет строительные блоки из различных архитектур нейронных сетей, такие как сверточные слои, механизм внимания, слои смеси экспертов с синтаксическим контролем и кодер-декодер. Он включает четыре сети модальности для языка (текстовые данные), изображений, аудио и категориальных данных.

Также стоит отметить, что в документе предлагается обучить одну задачу (например, синтаксический анализ) с кажущимся несвязанным набором данных (например, ImageNet), что принесет улучшения, благодаря трансферному обучению, методу машинного обучения для решения нескольких задач. Авторы далее объяснили, что «существуют вычислительные примитивы, общие для разных задач, которые позволяют передавать некоторое обучение даже между такими, казалось бы, несвязанными задачами, как ImageNet и синтаксический анализ».

Хотя его результаты не улучшаются по сравнению с современными достижениями (например, точность 86% по сравнению с современными технологиями с точностью 95% в ImageNet), статья впервые демонстрирует, что один глубокий Модель обучения может совместно изучать множество крупномасштабных задач из разных областей.

Tensor2Tensor

Кайзер является одним из основных участников разработки библиотеки Google с открытым исходным кодом TensorFlow для крупномасштабного машинного обучения. Обладая множеством удобных функций и утилит, TensorFlow в настоящее время является самой известной в мире системой машинного обучения среди исследователей и разработчиков приложений. Он использует графы потока данных для представления вычислений, сопоставляет узлы графа потока данных на многих машинах в кластере и подключается к широкому спектру вычислительных устройств, включая процессоры, графические процессоры и специально разработанные ASIC, известные как блоки обработки тензорных ( ТПУ).

Тем не менее, TensorFlow все еще нуждается в улучшении, учитывая простоту использования. «TensorFlow сейчас используется многими людьми. Это отличная система, по крайней мере, основа для машинного обучения. Мы обнаружили, что людям все еще довольно сложно попасть в машинное обучение, запустить свою первую модель, заставить свою систему работать ».

После исследования MultiModel команда Кайзера объявила о выпуске репозитория с открытым исходным кодом на Github, названного Tensor2Tensor, или сокращенно T2T. Это библиотека моделей и наборов данных глубокого обучения, использующая TensorFlow повсюду, с упором на то, чтобы сделать глубокое обучение более доступным, а также на ускорение исследований машинного обучения.

В настоящее время Tensor2Tensor поддерживает ЦП, графический процессор и TPU в конфигурациях с одним и несколькими устройствами. Он также предлагает набор гиперпараметров, в производительности которых Google уверен, например количество скрытых слоев или скорость обучения оптимизатора.

Репозиторий содержит множество простых в использовании наборов данных, используемых в академических кругах, а также современные модели глубокого обучения (в форме кодов) для задач, от задач обработки изображений, таких как классификация и генерация, до распознавания речи и проблем НЛП, таких как резюмирование. и перевод. Пользователям не нужно знать, где их скачать или как предварительно обработать данные. Все дело в коде.

Кайзер думал о более широкой картине общего интеллекта. Он считает, что с моделью, которая может решать различные задачи, приближается к будущему ИИ. «Понимает ли эта модель мир? Действительно ли это дает нам что-то более общее, чем тот конкретный интеллект, который у нас есть сейчас? Очень сложно ответить, но мы находимся на пути, и, возможно, через несколько лет мы сможем сказать больше ».

На предстоящей конференции AI Frontiers, которая пройдет с 9 по 11 ноября, Kaiser представит руководство по обучению Seq2seq с помощью T2T. Практическое руководство покажет, как использовать библиотеку T2T с открытым исходным кодом для обучения современных моделей для перевода, создания изображений и выполнения любых задач по вашему выбору.

AI Frontiers Conference объединяет лидеров идей в области ИИ, чтобы продемонстрировать передовые исследования и продукты. В этом году среди наших спикеров: Илья Суцкевер (основатель OpenAI), Джей Ягник (вице-президент Google AI), Кай-Фу Ли ( Генеральный директор Sinovation), Марио Мюнхен (старший вице-президент iRobot), Quoc Le (Google Brain), Питер Аббил (профессор Калифорнийского университета в Беркли) и более.

Покупайте билеты на aifrontiers.com. По вопросам и вопросам СМИ обращайтесь: [email protected]