Информационный бюллетень NLP: BERTology Primer, fastpages, T5, Data Science Education, PyTorch Notebooks, Slow…

В этом выпуске рассматриваются темы, которые варьируются от расширения модели Transformer и замедления публикации в ML до серии книг и проектов по ML и NLP.

Добро пожаловать в шестой выпуск информационного бюллетеня НЛП. Спасибо за поддержку и за то, что нашли время прочитать последние новости ML и NLP. В этом выпуске рассматриваются темы, которые варьируются от расширения модели Transformer и замедления публикации в ML до серии книг и проектов по ML и NLP.

Несколько обновлений о новостном бюллетене НЛП и dair.ai

Мы переводили информационный бюллетень на другие языки, такие как бразильский португальский, китайский, арабский, испанский и другие. Спасибо тем, кто помогал с переводами 🤗. Вы также можете внести свой вклад здесь.

Месяц назад мы официально запустили наш новый сайт. Вы можете заглянуть в нашу организацию GitHub для получения дополнительной информации о dair.ai и проектах. Если вам интересно узнать, как другие уже вносят свой вклад в dair.ai, или вы заинтересованы в том, чтобы внести свой вклад в демократизацию исследований, образования и технологий в области искусственного интеллекта, посетите наш раздел Проблемы.

Подпишитесь 🔖 на информационный бюллетень НЛП, чтобы получать сообщения о будущих выпусках на свой почтовый ящик.

Публикации 📙

Учебник по BERTology: что мы знаем о том, как работает BERT

Модели на основе трансформаторов показали свою эффективность при подходе к различным типам задач НЛП, которые варьируются от маркировки последовательностей до ответов на вопросы. Одна из этих моделей под названием BERT (Девлин и др., 2019) широко используется, но, как и другие модели, использующие глубокие нейронные сети, мы очень мало знаем об их внутренней работе. Новая статья под названием Учебник по BERTology: что мы знаем о том, как работает BERT призвана ответить на некоторые вопросы о том, почему BERT хорошо справляется с таким количеством задач НЛП. Некоторые из тем, затронутых в документе, включают тип знаний, полученных BERT, и где они представлены, а также то, как эти знания изучаются, а также другие методы, которые исследователи используют для их улучшения.

Изучение ограничений передачи обучения с помощью унифицированного преобразователя текста в текст

Google AI недавно опубликовал метод, который объединяет все извлеченные уроки и улучшения из моделей переноса обучения НЛП в одну унифицированную структуру под названием Text-to-Text Transfer Transformer (T5). В этой работе предлагается, что большинство задач НЛП могут быть сформулированы в текстовом формате, предполагая, что и входы, и выходы являются текстами. Авторы утверждают, что эта структура обеспечивает последовательную цель обучения как для предварительного обучения, так и для точной настройки. T5 - это, по сути, преобразователь кодировщика-декодера, который применяет различные улучшения, в частности, к компонентам внимания модели. Модель была предварительно обучена на недавно выпущенном наборе данных под названием Colossal Clean Crawled Corpus и достигла результатов SOTA по задачам НЛП, таким как обобщение, ответы на вопросы и классификация текста.

12-в-1: многозадачное видение и обучение языковой репрезентации

В текущих исследованиях используются независимые задачи и наборы данных для изучения видения и языка, даже когда навыки понимания языка на основе визуального восприятия, необходимые для выполнения этих задач, перекрываются. В новом документе (который будет представлен на CVPR) предлагается крупномасштабный многозадачный подход для лучшего моделирования и совместного обучения задачам видения и языка для создания более общей модели видения и языка. Модель уменьшает размер параметра и хорошо справляется с такими задачами, как поиск изображений на основе подписей и визуальные ответы на вопросы.

BERT может видеть нестандартно: кросс-модальная переносимость текстовых представлений

РЕЦИТАЛЬНЫЕ исследователи и сотрудники опубликовали статью, цель которой - ответить на вопрос, может ли модель BERT создавать представления, которые обобщаются на другие модальности помимо текста, такие как видение. Они предлагают модель под названием BERT-gen, которая использует моно- или мультимодальные представления и обеспечивает улучшенные результаты при генерации визуальных вопросов.

Творчество и общество 🎨

Следующее десятилетие в искусственном интеллекте: четыре шага к надежному искусственному интеллекту

Гэри Маркус недавно опубликовал статью, в которой объясняет ряд шагов, которые, по его мнению, мы должны предпринять для создания более надежных систем искусственного интеллекта. Центральная идея Гэри в этой статье - сосредоточиться на создании гибридных систем, основанных на знаниях, на основе когнитивных моделей, а не на построении более крупных систем, требующих большего объема данных и вычислительной мощности.

10 прорывных технологий 2020

MIT Technology Review опубликовал список 10 достижений, которые они определили, которые повлияют на решение проблем, которые могут изменить наш образ жизни и работы. Список - в произвольном порядке - включает в себя недоступный для взлома Интернет, гиперперсонализированную медицину, цифровые деньги, лекарства против старения, молекулы, открытые ИИ, спутниковые мегакозвездия, квантовое превосходство, крошечный ИИ, дифференциальную конфиденциальность и климатическую атрибуцию.

Пора переосмыслить процесс публикации в машинном обучении

Йошуа Бенжио недавно написал о своих опасениях по поводу быстрых циклов публикаций по ML. Основное беспокойство вызывает то, что из-за скорости публикации публикуется много статей, содержащих ошибки и лишь инкрементных, в то время как тратить больше времени и обеспечивать строгость, как это работало много лет назад, похоже, исчезает. Вдобавок ко всему, именно студентам приходится сталкиваться с негативными последствиями этого давления и стресса. Чтобы исправить ситуацию, Бенжио рассказывает о своих действиях, направленных на замедление исследовательских публикаций на благо науки.

Инструменты и наборы данных ⚙️

Реализация сети PointerGenerator в AllenNLP

Сети указателей-генераторов направлены на расширение моделей внимания от последовательности к последовательности, которые используются для улучшения абстрактного обобщения. Если вы хотите использовать эту технику для абстрактного обобщения с помощью AllenNLP, Кундан Кришна разработал библиотеку, которая позволяет вам запускать предварительно обученную модель (предоставляется) или обучать вашу собственную модель.

Ответы на вопросы для разных языков

С распространением моделей Transformer и их эффективностью для крупномасштабных задач НЛП, выполняемых на других языках, были предприняты впечатляющие усилия по выпуску различных типов наборов данных на разных языках. Например, Себастьян Рудер поделился списком наборов данных, которые можно использовать для поиска ответов на вопросы на разных языках: DuReader, KorQuAD, SberQuAD, FQuAD, Arabic-SQuAD, SQuAD-it. И Испанский SQuAD .

PyTorch Lightning

PyTorch Lightning - это инструмент, который позволяет абстрагироваться от обучения, которое может потребовать настройки обучения GPU / TPU и использования 16-битной точности. Заставить эти вещи работать может стать утомительным занятием, но хорошая новость заключается в том, что PyTorch Lightning упрощает этот процесс и позволяет вам обучать модели на нескольких графических процессорах и TPU без необходимости изменять текущий код PyTorch.

Графические нейронные сети в TF2

Исследовательская группа Microsoft выпускает библиотеку, которая обеспечивает доступ к реализациям множества различных архитектур графовых нейронных сетей (GNN). Эта библиотека основана на TensorFlow 2 и также предоставляет модули обработки данных, которые можно напрямую использовать в циклах обучения / оценки.

Предварительное обучение SmallBERTa - крошечная модель для обучения на крошечном наборе данных

Вы когда-нибудь хотели обучить собственную языковую модель с нуля, но у вас не было для этого достаточно ресурсов? Если это так, то Aditya Malte предоставит вам эту замечательную тетрадь Colab, которая научит вас обучать LM с нуля с меньшим набором данных.

Этика в ИИ 🚨

Почему лица не всегда говорят правду о чувствах

В течение некоторого времени многие исследователи и компании пытались создать модели искусственного интеллекта, которые понимают и могут распознавать эмоции в текстовом или визуальном контексте. Новая статья возобновляет дискуссию о том, что методы искусственного интеллекта, которые нацелены на распознавание эмоций непосредственно по изображениям лиц, делают это неправильно. Главный аргумент, выдвинутый известными психологами в этой области, заключается в том, что нет никаких доказательств универсальных выражений, которые можно было бы использовать для обнаружения эмоций только по изображениям лиц. Потребуется модель, лучше понимающая черты личности, движения тела и многое другое, чтобы действительно приблизиться к более точному обнаружению эмоций, отображаемых людьми.

Разъяснение дифференцированной конфиденциальности и федеративного обучения

Одним из этических соображений при создании систем искусственного интеллекта является обеспечение конфиденциальности. В настоящее время этого можно достичь двумя способами: с использованием дифференциальной конфиденциальности или федеративного обучения. Если вы хотите узнать больше об этих темах, Джордан Харрод дает нам отличное введение в этом видео, которое также включает практическое занятие с использованием записной книжки Colab.

Статьи и сообщения в блогах ✍️

Глубокое погружение в реформатор

Мэдисон Мэй написала новый пост в блоге, в котором подробно рассказывается о Reformer, новой и улучшенной модели на основе Transformer, недавно предложенной Google AI. Мы также упомянули Реформатора в предыдущем выпуске информационного бюллетеня.

Бесплатная платформа для ведения блогов

Fastpages позволяет автоматически создавать блог с помощью страниц GitHub бесплатно. Это решение упрощает процесс публикации блога, а также поддерживает использование экспортированных текстовых документов и записных книжек Jupyter.

Советы для прохождения собеседования в Google

Пабло Кастро из команды Google Brain опубликовал отличную запись в блоге, в которой выделил список советов для тех, кто хочет пройти собеседование при приеме на работу в Google. Темы включают советы о том, как подготовиться к собеседованию, чего ожидать во время собеседования и что произойдет после собеседования.

Трансформаторы - это графические нейронные сети

И графовые нейронные сети (GNN), и трансформаторы показали свою эффективность в различных задачах НЛП. Чтобы лучше понять внутреннюю работу этих подходов и их взаимосвязь, Чайтанья Джоши написал отличную статью, в которой объясняется связь между GNN и трансформаторами и различные способы объединения этих методов в своего рода гибридную модель.

CNN и эквивалентность

Фабиан Фукс и Эд Вагстафф обсуждают важность эквивариантности и то, как CNN обеспечивают ее соблюдение. Концепция эквивариантности сначала определяется, а затем обсуждается в контексте CNN в отношении перевода.

Самостоятельное обучение с изображениями

Самоконтроль много обсуждался в предыдущих выпусках Бюллетеня НЛП из-за роли, которую он сыграл в современных методах языкового моделирования. Это сообщение в блоге Джонатана Уитакера дает красивое и интуитивно понятное объяснение самоконтроля в контексте изображений. Если вам действительно интересна тема, Амит Чаудхари также написал отличный пост в блоге, описывающий концепцию в визуальной форме.

Образование 🎓

Stanford CS330: глубокое многозадачное обучение и метаобучение

Стэнфорд недавно выпустил видеозаписи в виде плейлиста на YouTube для своего нового курса глубокого многозадачности и метаобучения. Темы включают байесовское метаобучение, обучение на протяжении всей жизни, учебник с подкреплением, обучение с подкреплением на основе моделей и другие.

Блокноты PyTorch

dair.ai выпускает серию блокнотов, цель которых - помочь вам начать работу с глубокими нейронными сетями с использованием PyTorch. Работа над этим продолжается, и некоторые из текущих тем включают, как реализовать модель логистической регрессии с нуля и как программировать нейронную сеть или рекуррентную нейронную сеть с нуля. Блокноты Colab также доступны в репозитории GitHub.

Книга фастай (черновик)

Джереми Ховард и Сильвен Гуггер выпускают исчерпывающий список черновиков блокнотов для предстоящего курса, в котором представлены концепции глубокого обучения и способы разработки различных методов с использованием PyTorch и библиотеки fastai.

Бесплатные курсы по науке о данных

Если вы его пропустили, Kaggle предлагает серию бесплатных микрокурсов, которые помогут вам начать свое путешествие в области науки о данных. Некоторые из этих курсов включают объяснение машинного обучения, введение в машинное обучение и Python, визуализацию данных, разработку функций и глубокое обучение, среди прочего.

Вот еще один отличный онлайн-курс по науке о данных, который содержит учебный план, слайды и записные книжки по темам, которые варьируются от исследовательского анализа данных до интерпретации моделей и обработки естественного языка.

8 создателей и основных участников рассказывают о своих библиотеках для обучения моделей из экосистемы PyTorch

nepture.ai опубликовал обширную статью, которая содержит подробные обсуждения с основными создателями и участниками их пути и философии создания PyTorch и инструментов на его основе.

Визуализация моделей адаптивного рассеянного внимания

Саша Раш делится впечатляющей записной книжкой Colab, которая объясняет и показывает технические детали того, как создавать разреженные выходные данные softmax и вызывать разреженность в компоненте внимания модели Transformer, что помогает обеспечить нулевую вероятность для нерелевантных слов в данном контексте, улучшая производительность и интерпретируемость сразу.

Примечательные упоминания ⭐️

Вы можете получить доступ к предыдущему выпуску 🗞 Информационного бюллетеня НЛП здесь.

Конор Белл написал этот красивый скрипт на Python, который позволяет вам легко просматривать и готовить набор данных, который можно использовать для модели StyleGAN.

Ману Ромеро вносит доработанную модель POS для испанского языка. Модель доступна для использования в библиотеке Hugging Face Transformer. Будет интересно увидеть эти усилия на других языках.

Это репо содержит длинный список тщательно отобранных статей, связанных с BERT, которые касаются различных проблем, таких как сжатие модели, предметно-ориентированная, многомодельная, генерация, последующие задачи и т. Д.

Коннор Шортен опубликовал короткое 15-минутное видео, объясняющее новую общую структуру, направленную на уменьшение эффекта ярлыков в обучении репрезентации под самоконтролем. Это важно, потому что, если не сделать все правильно, модель может не запомнить полезные семантические представления и потенциально окажется неэффективной в условиях трансферного обучения.

Себастьян Рудер опубликовал новый выпуск информационного бюллетеня NLP News, в котором освещаются темы и ресурсы, которые варьируются от анализа работ по НЛП и машинному обучению в 2019 году до слайдов для изучения трансферного обучения и основ глубокого обучения. Смотрите здесь.

Если у вас есть какие-либо наборы данных, проекты, сообщения в блогах, учебные пособия или статьи, которыми вы хотите поделиться в следующей итерации информационного бюллетеня НЛП, свяжитесь со мной по адресу [email protected] или DM в Twitter. .