Модели преобразователей НЛП, используемые в семантике более высокого порядка

Анализ в настоящем отчете представляет собой обзор различных попыток, предпринятых в недавней литературе, для применения моделей на основе Transformer к задачам обработки естественного языка, где значение представляет собой сложную проблему. То, что мы имеем в виду под последним, будет позже определено в статье как семантика «более высокого порядка», поскольку значение рассматриваемых предложений / языка не может быть выведено исключительно из простой морфо-синтаксической композиции. Также кратко дается анализ архитектуры Transformer в целом (что ее отличает) и BERT и XLNet, двух его реализаций, наиболее широко используемых в рассматриваемых статьях. Мы предлагаем академическое обсуждение, которое начнется с двух статей, в которых делается попытка проанализировать сарказм, в одной из которых делается попытка категоризировать депрессивных пользователей в социальных сетях, а в другой - иметь дело с метафорами. Акцент делается на проблемах, с которыми они столкнулись с точки зрения предлагаемой лингвистической основы.

1. Введение

С 2017 года, когда архитектура Transformer была представлена для задач NLP, ее различные реализации стабильно позволяли получать самые современные результаты с небольшими исключениями и согласно большинству тестов. Хотя последние действительно пытаются анализировать более сложные задачи естественного языка, такие как понимание текста и логические ответы на вопросы, использование языка людьми имеет тенденцию быть более творческим процессом, как предполагал Гумбольдт, и использует надсегментные структуры. значений, которые выходят далеко за рамки простой морфологии и синтаксиса, которые мы привыкли учитывать при анализе предложений. В следующих частях настоящей статьи мы углубимся в лингвистические рамки того, что мы понимаем под термином «семантика более высокого порядка», поскольку это, несомненно, предоставит средства понимания, в чем именно заключаются трудности для НЛП. Мы продолжим презентацию наиболее важных аспектов семейства моделей Transformer, а также сделаем обзор его последних итераций с момента написания этой статьи. В третьем и последнем разделе мы рассмотрим опубликованные в 2020 году статьи, в которых предпринимаются попытки решить проблемы, которые, как мы считаем, относятся к сфере семантики более высокого порядка, с использованием различных архитектур на основе Transformer.

1.1 Семантика высшего порядка

Как смысл конструируется в языке - очень сложная проблема. На том, что мы можем назвать «низшими уровнями», значение предложений определяется формой слов (морфо- гр. «Форма») и их синтаксической комбинацией. Однако на раннем этапе следует упомянуть важный аспект: как это ни парадоксально, структура предложений отделена от их значений. Ноам Хомский классно доказал это на примере «бесцветные зеленые идеи яростно спят» - предложения, которое совершенно правильно, но не имеет смысла. Однако это не означает, что морфо-синтаксис и семантика сильно не взаимосвязаны. Мы, люди, негласно понимаем, что слова могут иметь разное значение. На это может указывать морфология: например, «автомобиль» - это не совсем то же самое понятие, если мы добавим в конце морфему множественного числа «s» и образуем «cars». С синтаксисом у нас есть еще один уровень смысла, который можно рассматривать как возникающий из самих комбинаций. Таким образом, «быстрые автомобили» имеют значение, которое немного отличается от обоих слов, взятых по отдельности. В заключение, именно на этой морфо-синтаксической структуре построена семантика нижнего уровня.

В семантике более высокого порядка полное значение того, что говорится, не может быть построено только с помощью морфо-синтаксической структуры. Если мы рассмотрим следующие два предложения:

красный пес бежал по лесу. (1)

Рыжий пес бежал через лес. (2)

где жирный шрифт представляет собой акцент или ударение в речи, мы можем сделать вывод, что, хотя они идентичны с точки зрения используемых слов и их синтаксиса, они означают несколько разные вещи. В (1) собака, которая бежала через лес, была красной, в отличие от любого другого цвета. Это дополнительная информация, которую дает предложение. Однако в случае (2) красная собака бежала через лес, а не через двор или любое другое место. В этом примере полное значение понимается только с помощью фонетического надсегментарного элемента. Следовательно, предложение должно быть услышано, чтобы получить то, что говорящий считает дополнительной или новой информацией. Выходя за рамки форм слов и их порядка в сочетании, теперь он имеет дело с экстралингвистическим миром. Таким образом, уже можно понять проблемы, с которыми может столкнуться программное обеспечение.

Рассмотрим другой пример:

«Мир - сцена» (3) - Уильям Шекспир, «Как вам это понравится», действие II, сцена VII

Здесь мы сталкиваемся с одной из наиболее распространенных категорий семантики более высокого порядка, а именно с метафорой. Его определение состоит в том, что он объединяет сущности, которые не должны иметь общих черт, создавая своего рода базовое сравнение. Если смотреть на жизнь, как на пьесу, тогда мир становится ее сценой, местом, где актеры исполняют свои роли как отдельные человеческие существа. Чтобы понять это, люди полагаются на другой важный аспект экстралингвистического контекста: знание реального мира. Смысл примера (3) может быть легко выведен с помощью индуктивных рассуждений, однако метафоры могут быть чрезвычайно сложными, до такой степени, что даже людям трудно их расшифровать.

Еще одна категория, которую следует рассмотреть, будет включать:

«Поздравляю! Вы выиграли 35 долларов. Позвольте называть вас лимузином » (4)

Сарказм также построен с использованием множества различных элементов, которые могут оказаться трудными, если не невозможными для моделей НЛП, таких как внутренние противоречия, самоуправляемая ирония, глубокое знание реального мира и экстралингвистический контекст. Предложение «не работай слишком усердно!» , сказанное начальником сотруднику, может быть истолковано как серьезное или саркастическое, если не будет предоставлена дополнительная информация. Однако, если кто-то знает, что сотрудник сидел сложа руки, ничего не делая, когда начальник обращается к ним, тогда ясно, что это предложение было означало сарказм. Указание могло быть дано тоном высказывания, но ничего в морфо-синтаксической структуре в этом случае.

Мы вкратце показали, как суперсегментная фонетика и знание мира имеют решающее значение для понимания более тонких предложений. Однако множество других факторов способствуют построению семантики более высокого уровня, среди которых, возможно, наиболее важным является контекст. Об этом можно думать двумя разными способами: текстовый контекст (иногда называемый `` cotext '', если он не большой по длине), под которым мы, конечно, подразумеваем предложения или слова, предшествующие или следующие за рассматриваемыми, или и то, и другое, и дополнительные -текстовый контекст, под которым понимаются все обстоятельства из реального мира, окружающие предложение: время, культурные нормы, местоположение, манера произнесения, вовлеченная аудитория и т. д. говорящего, чего надеялись достичь и всего, что подпадает под средства манипулирования дискурсом), использование знаков препинания или эмодзи, хэштегов или других средств массовой информации, которые могут сопровождать текст (например, изображения видеоматериалов). Они особенно полезны, если они противоречат основному тексту. Модели машинного обучения NLP кодируют вложения токенов, которые содержат некоторые из того, что мы имеем в виду, когда используем термин `` знание мира '', однако, поскольку люди имеют в своем распоряжении гораздо больше этого, может стать реальной проблемой расшифровать полное значение. исходя из этих аспектов.

1.2 Архитектура трансформатора

Архитектура Transformer - это модель кодировщика-декодера, которая доказывает, что механизм внимания - это все, что необходимо для фиксации длительных зависимостей между токенами и их контекстом. Вычисляются матрицы подобия, на основе которых система решает, на каких конкретных частях входных данных ей следует сосредоточиться. Этот механизм раньше довольно успешно использовался в рекуррентных нейронных сетях (ранее преобладающая модель), однако подход Transformer, основанный на использовании только внимания, означал, что он может использовать преимущества распараллеливания, на которое способны современные графические процессоры, поскольку передача входных данных сделано все сразу. Еще одно важное нововведение, предложенное в [1], заключалось в том, что наряду с традиционными вложениями слов следует использовать специальные функции на основе синуса и косинуса для сбора информации о положении токена в предложении. Последнее важно для возникающего смысла синтаксиса, представленного в 1.1. Механизм самовнимания (внимание токенов в последовательности по отношению к одной и той же последовательности) применяется к результирующим векторам в кодировщике. С другой стороны, декодер, сам построенный с двумя уровнями внимания, будет принимать в качестве входных данных выходы декодера, а также собственные выходные данные предыдущих шагов и создавать окончательные прогнозы. Однако следует отметить, что, поскольку это очень похоже на RNN, это можно рассматривать как противоречие тому, что было объяснено в начале этого раздела. В отличие от предыдущих RNN, Transformer использует метод «принуждения учителя», чтобы избежать повторения как такового. Первоначально в 2017 году и в последующих вариациях этой архитектуры были достигнуты современные результаты.

2 BERT и XLNet

BERT означает двунаправленные представления кодировщика от трансформаторов и был предложен в 2019 году. Он использует серию кодировщиков, взятых из архитектуры трансформатора. В первоначальном документе определены этапы предварительного обучения и тонкой настройки. Первое достигается за счет одновременного использования Маскированной языковой модели (MLM или маскирующих токенов) и прогнозирования следующего предложения (NSP). В систему вводятся два отдельных предложения, и ее задача состоит в том, чтобы решить, может ли второе логически следовать за первым. Поскольку это делается в рамках парадигмы MLM, некоторые токены заменяются специальным токеном [MASK], предоставляющим символ автокодирования для BERT. Последний также учится предсказывать пропущенные слова и, в отличие от традиционных языковых моделей, которые работают справа налево или слева направо, он может улавливать зависимости по обе стороны от токена. Как уже упоминалось, следует этап точной настройки, на котором модель можно обучить контролируемым образом для конкретных задач обработки естественного языка. Основные параметры модели в основном остаются неизменными, в то время как только выходные параметры извлекаются из ничего, что составляет огромное преимущество во времени.

В январе 2020 года была предложена архитектура XLNet как попытка преодолеть некоторые ограничения, обнаруженные в BERT, путем объединения аспектов, относящихся как к системам авторегрессии, так и к автоматическому кодированию. С одной стороны, использование жетонов масок само по себе проблематично. Поскольку они появляются только на этапе предварительной тренировки, их отсутствие на этапе тонкой настройки может создать несоответствие между процессами обучения на двух этапах. Чтобы еще больше усложнить ситуацию, существует немалая вероятность того, что, если на входе появляется более одного токена [MASK], они коррелируются. Это означает, что BERT не сможет установить связь между ними. Предположение о независимости между замаскированными токенами встроено в архитектуру. Они также вносят шум в нисходящий поток, хотя помогают при кодировании двунаправленного контекста.

Модель XLNet предложила устранить эти ограничения с помощью перестановок. При попытке предсказать определенный токен модель принимает в качестве входных данных перестановку исходной последовательности, из которой что-либо справа от целевого слова опускается. Возьмем для примера последовательность из четырех слов. Имеет 24 (4!) Возможных перестановки. Если целевой токен является третьим в исходной последовательности, когда итерация достигает порядка факторизации 2–4–3–1, входные данные будут состоять только из второго и четвертого токенов. Это то, что гарантирует, что XLNet имеет символы авторегрессии и автокодирования. Важно отметить, что сама последовательность слов не меняется. Система использует позиционные вложения, которые мы видели как часть традиционной архитектуры Transformer.

3 Использование трансформаторов для обнаружения сарказма

После того, что было кратко раскрыто в 1.1, становится ясно, что существуют значительные проблемы для задачи обнаружения сарказма из-за его принадлежности к категории лингвистических проблем семантики более высокого порядка. Этот раздел настоящей статьи состоит из анализа результатов, полученных в двух разных статьях, опубликованных в июле 2020 года по случаю «Второго семинара по обработке образных языков». Рассматриваемые исследования работают как с данными, которые были помечены заранее, так и с данными, полученными с помощью парсинга веб-сайтов социальных сетей. Таким образом, на этапе инженерии данных нам требуется вмешательство специалистов по данным, чтобы решить, какие языковые образцы представляют собой сарказм, а какие нет. Хотя в документах не представлены новые методы анализа данных, тем не менее они отражают обе проблемы и выделяют результаты, которые могут иметь отношение к дальнейшим исследованиям.

В «Обнаружении сарказма в разговоре с использованием моделей, основанных на преобразователях», первом из рассматриваемых исследований, читателей с самого начала предупреждают, что обнаружение сарказма может оказаться трудным в некоторых ситуациях даже для людей. Мы можем думать о сарказме как о более творческом акте в рамках парадигмы языка, поскольку он полностью меняет тон предложения, основанный на остроумии говорящего / писателя в использовании знания о мире. Авторы признают следующий важный момент, о котором мы теоретизировали во вводных подразделах данной статьи: «Обнаружение сарказма - это не только языковая проблема, но и экстралингвальные особенности, такие как информация об авторе и аудитории, среда общения и т. Д. ., также играют важную роль в идентификации сарказма » (от Дэвида Баммана и Ноа А. Смита.« Контекстуализированное обнаружение сарказма в Твиттере », 2015.). Однако можно было бы сделать шаг вперед и предположить, что могут возникнуть случаи, когда сарказм полностью зависит от экстралингвистического контекста, без морфологических или синтаксических знаков.

Как показывает использование термина «беседа» в названии, в статье предпринимается попытка решить проблему, охватывающую многопрофильный текст. Следует отметить, что авторы, тем не менее, не представляют методологии определения того, сколько из указанных предложений находится под влиянием сарказма и в какой степени. Можно было представить всевозможные сценарии. Например, предложение может быть обозначено как серьезное только по его структуре или характеристикам, но на самом деле оно представляет собой продолжение ранее высказанных саркастических комментариев и т. Д.

Набор данных передается через сети BERT, Long Short Term Memory (LSTM) и XLNet, причем первый из них обеспечивает лучшие результаты. Обзор не должен завершаться без упоминания трех других важных аспектов. Первый вывод заключается в том, что модели действительно помогают смайлики и знаки препинания, как и предсказано примечаниями, представленными в 1.1. Кроме того, обученная модель не сможет удовлетворительно обобщить любые другие наборы данных. И, наконец, что не менее важно, полученные результаты в F1 находятся между 0,62 и 0,75, и, казалось бы, общие результаты не очень обнадеживают.

Далее идет «Трансформаторный подход к обнаружению контекстного сарказма в Twitter» [6], где авторы дают определение сарказма («выражение настроения, которое противоречит его буквальному значению»), которое было бы лучше подходит для концепции иронии. Сарказм проявляется в определенной прагматике дискурса, а именно в намерении говорящего причинить боль. Он направлен на людей. Однако, хотя это ошибка, которая может повлиять на более тонкие дискуссии, различие выходит за рамки настоящего отчета. Как и в ранее упомянутой работе, авторы этой также начинают с подчеркивания важности контекста для обнаружения сарказма. Идея, которая полностью соответствует парадигме, установленной в настоящее время в 1.1.

В процессе обработки и анализа данных исследование показало, что ни скрытое распределение Дирихле (LDA - используется в попытке смоделировать тему данного текста), ни функции, основанные на частоте, не работают хорошо при прогнозировании сарказма. Как люди, мы можем интуитивно понять, почему это так: саркастический комментарий никоим образом не зависит от темы разговора и, в целом, не имеет ничего общего с аспектами, связанными с частотой или повторением. Этот этап предварительной обработки действительно позволил понять, что политические сообщения (особенно в Twitter) имеют больше шансов быть саркастичными, поэтому авторы решили добавить это в качестве функции в набор данных. Следует отметить, что, по крайней мере в качестве общей идеи, это может оказаться проблематичным для обобщения модели и ее распространения на другие наборы данных.

Большая часть работы в этом исследовании выполняется с помощью LSTM, однако архитектура Transformer также используется, показывая, что она дает гораздо лучшие результаты. Приятное подтверждение аспектов, предложенных в разделе 2 настоящей статьи.

В заключительных абзацах авторы делают вывод, что низкие полученные ими оценки можно объяснить тем, что данные для обучения и тестирования были получены из разных распределений. Хотя это, безусловно, может быть так, приведенные цифры практически идентичны тем, которые получены в ранее представленных работах. Подобно мудрости, обнаруженной за деревьями решений случайных лесов, исследование показывает, что лучшие результаты могут быть получены, если взвешенные трансформаторы помещены в ансамбль.

4 Обнаружение метафор с помощью трансформаторов

Во время того же семинара, упомянутого выше в разделе 3, был также представлен документ о попытке применить архитектуру Transformer к задаче обнаружения метафор. Статья «Обнаружение метафор с использованием контекстных встраиваний слов из преобразователей» была выбрана для изучения в настоящем отчете, поскольку метафоры предоставляют, возможно, самый богатый из возможных набор примеров семантики более высокого порядка. Естественно, следует ожидать ограничений, и исследование пытается обнаружить метафоры на уровне отдельных слов, исходя из предпосылки, что существует сходство между тем, что слово буквально означает, и тем, как оно используется в своем контексте. На самом деле, однако, метафоры, как правило, намного сложнее, охватывая несколько слов, предложений или даже абзацев.

На этот раз также не предлагается никаких новых методов / алгоритмов, однако новизна обеспечивается использованием модели BERT и XLNet для встраивания токенов, которые затем передаются в качестве входных данных в двунаправленную сеть LSTM. Показано, что, как подсказывает интуиция, комбинация встраиваний, исходящих из разных предварительно обученных моделей, обеспечивает лучший захват контекста для слов, а еще большее улучшение, хотя и небольшое, может быть получено путем добавления тегов для каждого токена. соответствующие их части речи. Следует отметить, что это происходит за счет способности правильно представлять слова с несколькими значениями или имеющие одинаковую форму для разных морфологических категорий («берег реки» и «сберегательная касса» и т. Д.).

Авторы описывают свое понимание проблемы и методологию в следующем предложении: «пометьте слово как метафору, если его прогнозируемая вероятность выше порогового значения или если его вероятность на три порядка выше прогнозируемой медианы. вероятность для этого слова в оценочном наборе ». Здесь следует поднять вопрос о том, что модель, обученная таким образом, не сможет различать метафору и язык в различных других «стилистических употреблениях».

Важную часть набора данных составляют отрывки из TOEFL (Тест на знание английского как иностранного, предлагаемый Службой образовательного тестирования), и в статье обращается внимание на важный аргумент, который, к сожалению, отсутствует в других исследованиях: « характеристики могут существенно различаться для нативного и неродного текста ». Поскольку социальные сети предоставляют все больше и больше входных данных для моделей НЛП, в эпоху глобализации, когда английский выступает в качестве нового лингва-франка, следует уделять особое внимание быть дано различным способам, в которых местные жители используют его по сравнению с не-уроженцами. Любой целевой язык, который мы можем рассмотреть, пронизан особенностями, такими как идиомы, лимерики, стишки и т. Д., Которые не имеют большого смысла для иностранцев.

Результаты, полученные в этом исследовании, похоже, отражают то, что мы проанализировали в разделе 3, с их лучшей моделью, получившей оценку F1 68%. Это еще больше усиливает предположения о проблемах НЛП с семантикой более высокого порядка.

5 трансформеров, применяемых для обнаружения депрессии в сообщениях в социальных сетях

Если депрессия проявляется на языке человека, а это не всегда так, она все равно будет подпадать под общий термин `` семантика более высокого порядка '', однако с гораздо большей сложностью по сравнению с тем, что мы видели до сих пор в случаях сарказм и метафоры. В этом разделе рассматривается исследование от августа 2020 года по теме «Многозадачный подход глубокого обучения для обнаружения депрессии у пользователей на Sina Weibo». Как и предыдущие статьи, упомянутые в настоящем отчете, исследование также работает с помеченным набором данных (выполненным специалистами в области психиатрии). Однако разница в том, что авторы предлагают немного новый метод, который они назвали FusionNet (FN).

Сделаны два набора основных предположений. С одной стороны, эта депрессия может характеризоваться уровнем социальной активности, определенными эмоциями, определенным языком или стилем лингвистики. С другой стороны, вышеупомянутые аспекты отражаются в сообщениях в социальных сетях в форме выражения никчемности, вины, беспомощности и ненависти к себе. Мы считаем эти предположения слишком широкими для приемлемых обобщений и недостаточно убедительно аргументированы соответствующей психиатрической литературой.

Набор данных полностью исходит от китайской платформы социальных сетей, которая очень похожа на микроблоггинг Twitter, под названием Sina Weibo. Вход в систему не полагается только на текст, и авторы используют другие носители, а также данные о поведении пользователей. Методология состоит из длительного процесса ручной обработки и подготовки набора данных. Впоследствии модель XLNet используется для встраивания вводимого текста, в то время как в то же время изображения и данные о поведении пользователя объединяются в статистические функции. Обе эти категории данных служат входными данными для FN, который по сути является двоичным классификатором, который выводит, указывают ли данные на депрессию или нет.

Функции созданы на основе изучения привычек пользователей, страдающих депрессией, писать сообщения. Таким образом, авторы обнаружили, что одними из наиболее важных указателей являются частота публикации изображений, показывающих кровопролитие или изображающих ненависть к себе, текст с конкретными ключевыми словами (например, «самоубийство» или «самоповреждение») или содержащий сильные отрицательные эмоции. а также долю этих твитов и изображений, в которых преобладают более холодные диапазоны цветов или низкая насыщенность. Все эти предположения создают несколько проблем. Некоторые из них относятся к лингвистике, в частности к использованию метаязыка: если мы возьмем пример «самоповреждения - это не выход», мы увидим, что даже несмотря на то, что предложение содержит одно из ключевых слов, которые мы ищем («self- вред »), его возникающее значение совершенно противоположно, и любая хорошая система должна это учитывать. Также в широкой категории метаязыка мы можем найти академическую литературу, которая, например, описывает депрессию: в таком тексте, несомненно, высока частота негативных эмоциональных слов, однако текст в целом не свидетельствует о том, что автор на самом деле подавлен. Характеристики, вытекающие из этих предположений, не могут, как упоминалось ранее, хорошо обобщать поведение всех депрессивных людей в социальных сетях. Они ориентированы только на тех, кто предпочитает выражать себя именно таким образом. В такой системе отсутствие выражения было бы равносильно отсутствию болезни. В самом деле, многие люди склонны вести себя прямо противоположным образом и скрывают свои недуги от общественной жизни. Таким образом, мы не можем считать, что результаты в этой статье соответствуют DSM-5 (Диагностическое и статистическое руководство по психическим расстройствам Американской психиатрической ассоциации, 5-е издание).

Исследование обнаруживает, что среди многих категорий функций, с которыми он работает в своем наборе данных, текстовые являются наиболее важными, что доказывает необходимость расширения исследований в области НЛП. Предложения проходят через процесс анализа настроений через внешний API, но последний кажется слишком упрощенным, поскольку, по мнению авторов, его возможные результаты - 0, 1 или 2. Несомненно, что система, использующая плавающую точку values было бы лучше улавливать нюансы.

В отличие от ранее обсуждавшихся статей, рассматриваемая дала впечатляющие результаты: точность 0,97. Авторы приходят к выводу, что больше всего этому способствовал процесс разработки функций, что подчеркивает нашу обеспокоенность тем, что FN может быть не в состоянии хорошо обобщить для других наборов данных.

6. Заключение

На момент написания было ясно, что различные реализации архитектуры Transformer лучше всего работают, когда дело доходит до захвата контекста во встраиваниях. Однако неясно, способны ли инструменты машинного обучения, имеющиеся в настоящее время в нашем распоряжении, улавливать семантику более высокого порядка. Как объясняется в первом разделе отчета, основная причина этого заключается в том, что улавливание полного смысла текста слишком сильно связано со всеми экстралингвистическими обстоятельствами и общими знаниями о реальном мире. Теперь мы видим, что без средств кодирования этой информации методы, представленные в проанализированных выше статьях, почти в половине случаев не соответствуют своей классификации. Учитывая это, попытки развития этой области сами по себе очень важны, и эти исследования, проведенные в 2020 году, предоставили ценные, ключевые идеи, такие как необходимость обучения моделей, которые могут обобщать за пределами их наборов обучающих данных, что существуют различия между тем, как нативные говорящие используют язык и то, как это делают иностранцы, что трансформеры обеспечивают лучшее встраивание благодаря своим способностям захвата контекста, особенно при использовании в ансамбле, и что текст по-прежнему является наиболее важной из функций, которые мы можем рассмотреть на этапах предварительной обработки .

Библиография

Васвани, и др., Attention Is All You Need, 2017.

Н. Хомский, Синтаксические структуры, 1957.

Девлин Джейкоб и др., BERT: Предварительное обучение глубоких двунаправленных преобразователей для понимания языка, 2019.

Ян Чжилин и др., XLNet: Обобщенная предварительная тренировка авторегрессии для понимания языка, 2020.

еАввару Адитья и др. Обнаружение сарказма в контексте разговора с использованием моделей на основе трансформаторов, 2020.

Грегори Хантер и др., Трансформаторный подход к обнаружению контекстного сарказма в Twitter, 2020.

Джерри Лю и др., Обнаружение метафор с использованием контекстных встраиваний слов от Transformers, 2020.

Йидинг Ван и др., Многозадачный подход к глубокому обучению для выявления депрессии у пользователей на Sina Weibo, 2020.