Соответствующие технологии обеспечения качества глубокого обучения

Это вторая статья из серии из двух частей о системах контроля качества и глубоком обучении. Вы можете прочитать часть 1 здесь. Глубокое обучение — это подраздел машинного обучения, целью которого является использование машин для абстрагирования данных с помощью нескольких уровней обработки и сложных алгоритмов. Хотя глубокое обучение похоже на искусственный интеллект (ИИ) и машинное обучение, оно использует более детальный подход к обучению на основе данных. Одним из лучших приложений глубокого обучения являются цифровые помощники, такие как Siri и Google Now. Эти помощники могут получать информацию о взаимодействии между людьми. Например, они могут ответить на вопрос: Какой фильм идет в моем местном кинотеатре? Однако они не знают, как разобрать это предложение, и их нужно запрограммировать, чтобы понять контекст. Именно здесь жизненно важно глубокое обучение, поскольку оно позволяет машинам расшифровывать речь и текст.

Семантическое представление на основе DNN

В последние годы исследователи продолжили изучение глубоких нейронных сетей (DNN) в отношении классификации изображений и распознавания речи. Изучение языка и его репрезентация через DNN постепенно стали новой тенденцией в исследованиях. Однако из-за гибкости человеческих языков и сложности, связанной с абстракцией семантической информации, модель DNN сталкивается с проблемами при реализации языкового представления и обучения.

Во-первых, по сравнению с голосами и изображениями язык представляет собой неестественную систему сигналов и символов, которая полностью создается и обрабатывается мозгом. Изменчивость и гибкость языков намного больше, чем у изображений и голосовых сигналов. Во-вторых, изображения и голоса имеют точные математические представления. Например, изображения в градациях серого представляют собой математические матрицы, и даже самый гранулярный элемент имеет определенный физический смысл, причем значение в каждой точке пикселя указывает значение цвета в градациях серого. Напротив, предыдущий метод представления мешка слов может привести к таким проблемам, как трудности с получением осмысленной информации из-за избыточного количества измерений, высокой разреженности и потери семантической информации при языковом представлении.

Исследователи все больше интересуются применением модели глубокого обучения для обработки естественного языка (NLP), уделяя особое внимание представлению и изучению слов, предложений, статей и соответствующих приложений. Например, Бенджио и др. получили новое векторное изображение, называемое встраиванием слов или вектором слов, используя модель нейронной сети [27]. Этот вектор представляет собой низкоразмерное, плотное и непрерывное векторное представление и содержит семантическую и грамматическую информацию о словах. В настоящее время представление вектора слов влияет на реализацию большинства методов НЛП, основанных на нейронных сетях.

Исследователи разработали модель DNN, чтобы узнать о векторном представлении предложений, которое включает моделирование предложений рекурсивной нейронной сети, рекуррентной нейронной сети (RNN) и сверточной нейронной сети (CNN) [28–30]. Исследователи применили представление предложений к большому количеству задач НЛП и добились выдающихся результатов, таких как машинный перевод [31, 32] и анализ настроений [33, 34]. Представление предложений и изучение артиклей все еще относительно сложны и мало изучены. Примером такого исследования является исследование, проведенное Ли и его командой, которые реализовали представление статей путем их кодирования и декодирования с помощью иерархической RNN [35].

В области обеспечения качества существуют две фундаментальные проблемы. Во-первых, как реализовать семантическое представление вопроса и ответа. Как интерпретация вопроса пользователя, так и извлечение и проверка ответа требуют абстрактного представления важной информации вопроса и ответа. Он включает в себя представление не только синтаксической и грамматической информации операторов QA, но также намерения пользователя и соответствующую информацию на семантическом уровне.

Во-вторых, как реализовать семантическое соответствие между вопросом и ответом. Чтобы ответ на вопрос пользователя соответствовал строгим семантическим правилам, система должна разумно использовать высокоуровневое абстрактное семантическое представление утверждений для получения модели семантического соответствия двух текстов.

Учитывая возможности языкового представления, которые CNN и RNN продемонстрировали в области НЛП в последние годы, все больше исследователей пробуют метод глубокого обучения для выполнения ключевых действий в области обеспечения качества, таких как классификация вопросов, выбор ответов и автоматическая генерация ответов. Кроме того, естественные аннотированные данные [50], генерируемые интернет-пользователями для обмена информацией, такие как ответы в микроблогах и пары QA сообщества, предоставляют надежные ресурсы данных для обучения модели DNN, тем самым решая проблему нехватки данных в области исследований QA в значительной степени. степень.

Семантическое представление на основе CNN

DNN набирают популярность в мире машинного перевода. Исследователи разработали различные типы DNN, такие как сети с глубоким стеком (DSN), сети с глубоким доверием (DBN), рекуррентные нейронные сети (RNN) и сверточные нейронные сети (CNN). В НЛП основной целью всех ГНС является изучение синтаксических и семантических представлений слов, предложений, фраз, структур и предложений, чтобы он мог понимать похожие слова (фразы или структуры).

Семантическое представление на основе RNN

Изучение DNN на основе CNN направлено на понимание векторов представления, которые формируют предложения. Он делает это, просматривая предложения; извлечение и выбор характеристик. Во-первых, скользящее окно используется для сканирования предложения слева направо. Каждое скользящее окно содержит несколько слов с вектором, представляющим каждое слово. В скользящем окне свертка извлекает характеристики. Затем при максимальном объединении (процесс дискретизации на основе выборки) выбираются характеристики. Повторение вышеуказанной операции несколько раз приводит к получению нескольких векторов для представления. Соединение этих векторов обеспечивает семантическое представление целых предложений. Как показано на рисунке 1, входные данные моделирования предложений на основе CNN представлены в виде матриц слов-векторов.

Выходные данные имеют смысл после соединения значений нескольких точек в каждой строке матрицы, поскольку затем они представляют соответствующее слово в предложении. Матрица векторов слов получается путем преобразования слов в предложении в соответствующие векторы слов и последующего их расположения в том же порядке, что и слова. Эта модель используется для выражения предложения в виде вектора фиксированной длины посредством многослойного перекрытия, свертки и максимального объединения. Такие архитектуры можно использовать для обработки различных контролируемых естественных языков путем добавления классификатора на верхний уровень модели.

Рисунок 1: Моделирование предложений на основе CNN

Моделирование предложений на основе CNN можно представить как «комбинационный оператор» с функцией локального выбора. С постепенным углублением уровня модели выходные данные представления, полученные из модели, могут охватывать более широкий диапазон слов в предложении. Многослойная операция позволяет получить векторы представления предложений фиксированной размерности. Этот процесс функционально подобен рекуррентному механизму работы [33] «рекурсивного автоматического кодирования».

Модель предложения, сформированная с помощью одного слоя свертки и глобального максимального объединения, называется моделью мелкой сверточной нейронной сети. Он широко используется для классификации уровня предложений в НЛП, например, классификации предложений [36] и классификации отношений [37]. Однако модель неглубокой сверточной нейронной сети не может быть использована ни для сложных локальных семантических отношений в предложениях, ни для лучшего представления семантической комбинации на более глубоком уровне в предложении. Глобальное максимальное объединение приводит к потере характеристик порядка слов в предложении. В результате модель неглубокой сверточной нейронной сети может использоваться только для сопоставления локальных атрибутов между операторами. Для сложных и разнообразных представлений естественного языка в вопросах и ответах модель сопоставления QA [38–40] обычно использует глубокую сверточную нейронную сеть (DCNN) для завершения моделирования предложений для вопросов и ответов и проводит сопоставление QA путем передачи семантических представлений QA из высокоуровневый вывод на многослойные персептроны (MLP).

Архитектура семантического сопоставления на основе DCNN

В моделировании предложений на основе RNN предложение рассматривается как последовательность слов, а вектор представляет каждое слово. Существует промежуточное представление каждой позиции, и такое представление состоит из векторов для учета семантики от начала предложения до каждой позиции. Промежуточное представление каждой позиции определяется вектором слов в текущей позиции и промежуточным представлением предыдущей позиции и формируется с помощью модели RNN. Модель RNN рассматривает промежуточное представление в конце предложения как семантическое представление всего предложения, как показано на рисунке 2.

Рисунок 2: Моделирование предложений на основе RNN

Модель RNN имеет структуру, аналогичную скрытой марковской модели, но с более мощными возможностями представления. Промежуточное представление не имеет марковского предположения, и модель нелинейна. Однако с увеличением длины последовательности возникает проблема исчезающего градиента [43] при обучении РНС. Чтобы решить эту проблему, исследователи улучшили дизайн рекуррентных вычислительных блоков в RNN и предложили различные варианты, такие как Long Short-Term Memory (LSTM) [44, 45] и Gated Recurrent Unit (GRU) [56].

Два упомянутых выше типа RNN могут использоваться для обработки отношений дальней зависимости и для обеспечения лучшего семантического представления всего предложения. С помощью двунаправленного LSTM Ван и Найберг [47] изучили семантическое представление пар вопрос-ответ и ввели полученные представления в классификатор для вычисления уровня достоверности классификации.

Недавно исследователи завершили изучение семантического представления в графических сценариях вопросов, интегрировав CNN и RNN. Во время сканирования последовательности слов, проводимого RNN для вопросов, модель использует комбинированный механизм обучения, основанный на глубоком обучении, чтобы завершить обучение «с текстами и графикой», чтобы реализовать моделирование вопросов в сценарии изображения для окончательного сопоставления QA.

Например, во время обхода RNN слов в вопросах модель обучения, предложенная Малиновским и др. [48] ​​рассматривает представление изображения, полученное CNN, и вектор слов в текущей позиции слова в качестве входной информации для RNN. Он пытается учиться на текущем промежуточном представлении, таким образом реализуя комбинированное обучение изображений и вопросов.

Напротив, Gao et al. [49] сначала использовали RNN для завершения моделирования предложений для вопросов, а затем рассматривали как вектор семантического представления вопросов, так и вектор представления изображения, полученный CNN, в качестве информации о сценарии для генерации ответов во время генерации ответов.

Архитектура параллельного сопоставления

Основные функциональные модули, участвующие в семантическом сопоставлении системы обеспечения качества, включают в себя извлечение вопроса (т. е. обнаружение перефразирования вопроса), извлечение ответа (т. е. сопоставление вопросов и текстовых утверждений-кандидатов) и определение последовательности достоверности ответа (т. е. отметку на семантическое соответствие между вопросами и возможными ответами).

Интерактивная архитектура сопоставления

Первым типом архитектуры семантического сопоставления на основе DCNN является архитектура параллельного сопоставления [38–40]. Семантические представления (векторы действительных значений) двух предложений являются результатом их ввода в две модели предложений на основе CNN. Затем эти два семантических представления будут введены в многослойную нейронную сеть, чтобы оценить степень семантического соответствия двух предложений и определить, могут ли они образовать совпадающую пару предложений (пару QA). Это основная идея модели параллельного семантического сопоставления на основе DCNN.

Рис. 3. Архитектура параллельного сопоставления на основе DCNN

Архитектура параллельного сопоставления, показанная на рисунке 3, показывает, что две независимые CNN получают представления двух предложений, и информация между этими двумя предложениями не будет влиять друг на друга до получения собственных представлений. Эта модель используется для сопоставления двух предложений с глобальной семантической точки зрения, но игнорирует более сложные характеристики локального сопоставления. Однако в вопросах, связанных с сопоставлением утверждений, между двумя предложениями часто существует локальное соответствие. Например, пары вопрос-ответ, как показано ниже:
Sx: Я голоден, где мы сегодня поедим?
Sy: Я слышал, что KFC недавно выпустила новые продукты, попробуем немного.

В этой паре QA существует сильная связь соответствия между «поесть» и «KFC», в то время как параллельное соответствие отражается в глобальном представлении этих двух предложений. До завершения репрезентации всего предложения «поесть» и «KFC» не влияют друг на друга.

Автоматическая генерация ответов на основе RNN

Второй тип архитектуры семантического сопоставления на основе DCNN — это архитектура интерактивного сопоставления [39]. В отличие от параллельного сопоставления, основная идея интерактивного сопоставления состоит в том, чтобы понять шаблон сопоставления двух предложений напрямую и проводить локальные взаимодействия с разной степенью детализации между ними на разных глубинах модели.

Далее отмечается представление совпадающих предложений на различных уровнях и, наконец, получается равное представление предложений для фиксированных размерностей с пометкой совпадающего представления.

Рис. 4. Архитектура интерактивного сопоставления на основе DCNN

Как показано на рисунке 4, первый уровень архитектуры интерактивного сопоставления непосредственно получает локальное представление сопоставления на нижнем уровне между предложениями путем сверточной сопоставления скользящих окон между ними. В последующем высокоуровневом обучении он использует двумерную свертку и двумерное локальное максимальное объединение, аналогичные тем, которые используются во время обработки поля изображения, для изучения высокоуровневого представления соответствия между предложениями вопросов и ответов.

В этой форме модель сопоставления может не только выполнять расширенное моделирование для локального отношения сопоставления между двумя предложениями, но также выполнять моделирование для информации в каждом предложении. Понятно, что результирующий вектор, полученный в результате интерактивного обучения сопоставлению, содержит не только информацию о положении скользящих окон для этих двух предложений, но и их сопоставление.

Для семантического сопоставления между вопросами и ответами интерактивное сопоставление полностью допускает внутреннюю связь сопоставления между вопросами и ответами, а также получение соответствующих векторов представления между ними посредством двумерной свертки и двумерного локального максимального объединения. В процессе интерактивного сопоставления больше внимания уделяется соотношению соответствия между предложениями и проводится их точное сопоставление.

По сравнению с параллельным сопоставлением, интерактивное сопоставление учитывает не только качество комбинации слов в скользящем окне каждого предложения, но и качество отношения сопоставления для комбинации двух предложений. Преимущество параллельного сопоставления заключается в том, что соответствующая информация о порядке слов может поддерживаться во время сопоставления, поскольку параллельное сопоставление выполняет моделирование в скользящих окнах для последовательностей в обоих предложениях. Сравнительно говоря, процесс интерактивного сопоставления QA — это интерактивный режим для изучения локальной информации между утверждениями.

Поскольку ни локальная операция свертки, ни локальное максимальное объединение не могут изменить общую последовательность представления локального сопоставления двух предложений, интерактивная модель сопоставления может поддерживать информацию о порядке слов в вопросах и ответах. Короче говоря, интерактивное сопоставление может получить локальный режим сопоставления между двумя предложениями путем моделирования сопоставления вопросов и ответов.

Вывод

По сравнению с механизмом ответа на основе поиска механизм обратной связи на основе генерации дает ответ, который автоматически генерируется в соответствии с информацией, введенной текущими пользователями. Он состоит из порядка слов, а не утверждений ответов, созданных пользователями, редактирующими путем поиска в базе знаний. Этот механизм используется для построения модели генерации естественного языка с использованием большого количества интерактивных пар данных. Используя эту информацию, система может автоматически генерировать ответ на естественном языке.

Режим автоматической генерации ответов должен решить две важные проблемы: представление предложений и создание языка. В последние годы рекуррентная нейронная сеть хорошо зарекомендовала себя как в языковом представлении, так и в генерации, в частности, для архитектуры кодирования-декодирования на основе RNN, которая совершила прорыв в машинном переводе [31, 32] и автоматической абстракции [51].

На основе кадра кодирования-декодирования рекуррентной нейронной сети GRU (Gated Recurrent Unit) [46] Shang [52] et al. предложил модель диалога «Нейронная отвечающая машина» (NRM), которая основана на нейронной сети и может быть использована для реализации человеко-машинных однооборотных диалогов. NRM используется для изучения ответов людей из большого количества информационных пар (пары вопрос-ответ, пары микроблог-ответ) и для сохранения моделей, полученных в почти четырех миллионах параметров модели для системы, то есть для получения генерации на естественном языке. модель.

Как показано на рис. 5, NRM рассматривает вводимые предложения как последовательность представлений слов. Затем NRMS преобразует его в последовательность промежуточных представлений через кодировщик, то есть модель RNN, и, наконец, преобразует его в ряд слов в качестве входных данных предложения через декодер, то есть другую модель RNN. Поскольку NRM использует гибридный механизм во время кодирования, последовательность промежуточного представления, полученная в результате кодирования, может не только полностью охватить информацию высказывания пользователя, но и сохранить другие детали предложений. Он также использует механизм внимания [31] во время декодирования, чтобы модель генерации могла легко понять сложную интерактивную модель в процессе обеспечения качества.

Механизм ответов на вопросы, основанный на генерации, и механизм обратной связи, основанный на поиске, имеют свои характеристики: в данных микроблогов с персонализированными формами выражения степень точности первого относительно выше, чем у второго, а именно 76 процентов и 70 процентов соответственно. Однако ответы, полученные от первых, могут иметь грамматическую непроницаемость и плохую связность, а ответы от вторых могут иметь рациональные и надежные выражения, поскольку их редактировали пользователи микроблогов.

Рисунок 5: Модель генерации ответа на основе кадра кодирования-декодирования

В настоящее время NRM и Neural Conversational Model (NCM) Google [53] все еще реализуют генерацию языка на верхнем уровне памяти и комбинации сложной языковой модели, но не могут использовать внешние знания во время взаимодействия. Например, в предложении «Как Западное озеро Ханчжоу отличается от первого мая прошлого года?» они не могут дать ответ, относящийся к реальной ситуации (результаты сравнения).

Тем не менее, значение NRM и NCM состоит в том, что они предварительно реализуют гуманоидную автоматическую языковую обратную связь. За последние несколько десятилетий большинство моделей обеспечения качества и диалога, созданных благодаря неустанным усилиям исследователей, основывались на правилах и шаблонах или исследованиях, проведенных в обширной базе данных. Эти два режима не могут генерировать обратную связь и не обеспечивают адекватного понимания и представления языка. Это часто происходит из-за ограниченных точек данных и выражений шаблонов/примеров. Эти способы имеют определенные недостатки в их точности и гибкости и с трудом учитывают как естественную гладкость языка, так и соответствующее семантическое содержание.

использованная литература

В этой статье кратко представлена ​​история разработки и базовая архитектура системы контроля качества. В нем также представлены семантические представления на основе DNN, модели семантического сопоставления различных архитектур сопоставления и модели генерации ответов для решения некоторых фундаментальных проблем в системе обеспечения качества. Глубокое обучение помогло достичь этого. Тем не менее, в техническом исследовании системы контроля качества еще предстоит решить проблемы, например, как понимать вопросы пользователей в рамках непрерывного интерактивного сценария контроля качества, например, понимание языка при взаимодействии с Siri. Кроме того, как изучить внешнее семантическое знание, чтобы гарантировать, что система контроля качества может проводить простые рассуждения на основе знаний, чтобы отвечать на вопросы логического вывода, такие как «Какое отделение больницы мне следует посетить, если я постоянно чувствую боль в груди и кашель?» Более того, с недавним исследованием и популяризацией механизма внимания и сети памяти [54, 55] в понимании естественного языка и рассуждениях о знаниях будут предоставлены новые возможности для развития исследований по автоматическим ответам на вопросы.

[1] Терри Виноград. Пять лекций по искусственному интеллекту [J]. Linguistic Structures Processing, Volume 5 of Fundamental Studies in Computer Science, pages 399-520, North Holland, 1977.
[2] Вудс В. А. Лунные камни на естественном английском: исследования на естественном языке, ответы на вопросы [J]. Linguistic Structures Processing, 1977, 5: 521−569.
[3] Делл Чжан и Ви Сун Ли. Классификация вопросов с использованием метода опорных векторов. В SIGIR, страницы 26–32. ACM, 2003
[4] Синь Ли и Дэн Рот. Классификаторы обучающих вопросов. В COLING, 2002
[5] Ханг Цуй, Мин-Йен Кан и Тат-Сэн Чуа. Неконтролируемое изучение мягких шаблонов для создания определений из онлайн-новостей. В Стюарт И. Фельдман, Майк Урецкий, Марк Найорк и Крейг Э. Уиллс, редакторы, Материалы 13-й Международной конференции по всемирной паутине, WWW 2004, Нью-Йорк, штат Нью-Йорк, США, 17–20 мая 2004 г., стр. 90 –99. ACM, 2004.
[6] Clarke C, Cormack G, Kisman D, et al. Ответ на вопрос путем выбора отрывка (многотекстовые эксперименты для TREC-9) [C]//Proceedings of the 9th Text Retrieval Conference (TREC-9), 2000.
[7] Ittycheriah A, Franz M, Zhu WJ, et др. Система ответов на статистические вопросы IBM[C]//Proceedings of the 9th Text Retrieval Conference (TREC-9), 2000.
[8] Ittycheriah A, Franz M, Roukos S. Система ответов на статистические вопросы IBM — TREC-10 [C]//Материалы 10-й конференции по текстовому поиску (TREC 2001), 2001.
[9] Lee G, Seo J, Lee S, et al. SiteQ: разработка высокопроизводительной системы контроля качества с использованием лексико-семантического шаблона.
[10] Tellex S, Katz B, Lin J, et al. Количественная оценка алгоритмов поиска отрывков для ответов на вопросы[C] // Материалы 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (SIGIR '03). Нью-Йорк, штат Нью-Йорк, США: ACM, 2003:41–47.
[11] Дживун Чон, В. Брюс Крофт и Джун Хо Ли. Поиск похожих вопросов в больших архивах вопросов и ответов. В материалах Международной конференции ACM CIKM 2005 г. по управлению информацией и знаниями, Бремен, Германия, 31 октября — 5 ноября 2005 г., страницы 84–90. ACM, 2005.
[12] С. Рицлер, А. Вассерман, И. Цочантаридис, В. Миттал, Ю. Лю, Статистический машинный перевод для расширения запроса при поиске ответов, в: Материалы 45-го ежегодного собрания Ассоциация компьютерной лингвистики, Ассоциация компьютерной лингвистики, Прага, Чехия, 2007 г., стр. 464–471.
[13] М. Сурдеану, М. Чиарамита, Х. Сарагоса, Обучение ранжированию ответов в больших онлайн-коллекциях контроля качества, в: ACL, Ассоциация компьютерной лингвистики, 2008 г., стр. 719–727.
[14] А. Бергер, Р. , Каруана, Д. Кон, Д. Фрайтаг, В. Миттал, Преодоление лексической пропасти: статистические подходы к поиску ответов, в: SIGIR '00: Материалы 23-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации, ACM, New York, NY, USA, 2000, стр. 192–199.
[15] Gondek, DC, et al. «Структура для слияния и ранжирования ответов в DeepQA». IBM Journal of Research and Development 56.3.4 (2012): 14–1.
[16] Wang, Chang, et al. «Извлечение отношений и оценка в DeepQA». IBM Journal of Research and Development 56.3.4 (2012): 9–1.
[17] Кеннет С. Литковски. Вопрос-ответ с использованием семантических троек[C]. Восьмая конференция по поиску текста (TREC-8). Гейтерсбург, Мэриленд. 17–19 ноября 1999 г.
[18] Х. Цуй, Р. Сунь, К. Ли, М.-Ю. Кан, Т.-С. Чуа, Вопрос, отвечающий на поиск прохода с использованием отношений зависимости., в: Р. А. Баеза-Йейтс, Н. Зивиани, Г. Маркионини, А. Моффат, Дж. Тейт (ред.), SIGIR, ACM, 2005, стр. 400–407.
[19] Ван М., Смит Н.А., Митамура Т. Что такое модель опасности? квазисинхронная грамматика для qa., в: J. Eisner (Ed.), EMNLP-CoNLL, The Association for Computer Linguistics, 2007, стр. 22–32.
[20] K. Wang, Z. Мин, Т.-С. Чуа, Подход к сопоставлению синтаксического дерева для поиска похожих вопросов в службах обеспечения качества на уровне сообщества, в материалах 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, SIGIR '09, 2009 г., стр. 187–194.
[21] Hovy, EH, U. Hermjakob, and Chin-Yew Lin. 2001. Использование внешних знаний Factoid QA. В Proceedings of the 10th Text Retrieval Conference (TREC 2001) [C], Gaithersburg, MD, USA, 13–16 ноября 2001 г.
[22] Jongwoo Ko, Laurie Hiyakumoto, Eric Nyberg. Использование нескольких семантических ресурсов для выбора ответа. В Proceedings of LREC(Vol. 2006).
[23] Kasneci G,suchanek FM, Ifrim G, et al. Нага: Поиск и ранжирование знаний. IEEE, 2008:953–962.
[24] Чжан Д., Ли В. С. Классификация вопросов с использованием машин опорных векторов[C]. Материалы 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. 2003. Нью-Йорк, штат Нью-Йорк, США: ACM, SIGIR’03.
[25] X. Yao, B.V. Durme, C. Callison-Burch, P. Clark, Извлечение ответа как маркировка последовательности с расстоянием редактирования дерева. , в: HLT-NAACL, Ассоциация компьютерной лингвистики, 2013 г., стр. 858–867.
[26] К. Шах, Дж. Померанц, Оценка и прогнозирование качества ответов в 33-я Международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска, SIGIR '10, 2010, стр. 411–418.
[27] Т. Миколов, К. Чен, Г. Коррадо, Дж. Дин, Эффективная оценка представлений слов в векторном пространстве, CoRR abs/1301.3781.
[28] Socher R, Lin C, Manning C, et al. Анализ естественных сцен и естественного языка с помощью рекурсивных нейронных сетей[C]. Материалы международной конференции по машинному обучению. Хайфа, Израиль: Omnipress, 2011: 129–136.
[29] А. Грейвс, Генерация последовательностей с помощью рекуррентных нейронных сетей, CoRR abs/1308.0850.
[30] Kalchbrenner N, Grefenstette E, Blunsom P. , Сверточная нейронная сеть для моделирования предложений[C]. Труды ACL. Балтимор и США: Ассоциация вычислительной лингвистики, 2014: 655–665.
[31] Бахданау Д., Чо К., Бенжио Ю. Нейронный машинный перевод путем совместного обучения выравниванию и переводу [J]. arXiv, 2014.
[32] Суцкевер И., Виньялс О., Ле К. В. В. Обучение последовательностям с помощью нейронных сетей [M]. Достижения в системах обработки нейронной информации 27. 2014: 3104–3112.
[33] Socher R, Pennington J, Huang E H, et al. Полууправляемые рекурсивные автоматические кодировщики для прогнозирования распределения настроений[C]. EMNLP 2011
[34] Tang D, Wei F, Yang N, et al. Изучение встраивания слов, специфичных для настроений, для классификации настроений в Твиттере[C]. Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи). Балтимор, Мэриленд: Ассоциация вычислительной лингвистики, 2014: 1555–1565.
[35] Ли Дж., Луонг М.Т., Джурафски Д. Иерархический нейронный автокодировщик для абзацев и документов[C]. Труды ACL. 2015.
[36] Ким Ю. Сверточные нейронные сети для классификации предложений[C]. Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP). Доха, Катар: Ассоциация компьютерной лингвистики, 2014: 1746–1751.
[37] Zeng D, Liu K, Lai S, et al. Классификация отношений с помощью сверточной глубокой нейронной сети[C]. Материалы COLING 2014, 25-й Международной конференции по компьютерной лингвистике: технические документы. Дублин, Ирландия: Ассоциация компьютерной лингвистики, 2014: 2335–2344.
[38] Л. Ю., К. М. Германн, П. Блансом и С. Пульман. Глубокое обучение для выбора предложения ответа. CoRR, 2014.
[39] Б. Ху, З. Лу, Х. Ли, К. Чен, Архитектуры сверточных нейронных сетей для сопоставления предложений на естественном языке, в: З. Гахрамани, М. Веллинг, К. Кортес, Н. Д. Лоуренс, К. К. Вайнбергер (ред.), NIPS, 2014, стр. 2042–2050.
[40] А. Северин, А. Мошитти, Обучение ранжированию коротких текстовых пар с помощью сверточных глубоких нейронных сетей., в: RA Baeza-Yates, M. Lalmas, A. Moffat, BA Ribeiro-Neto (Eds.), SIGIR, ACM, 2015, стр. 373–382.
[41] Wen-tau Yih, Xiaodong He и Кристофер Мик. 2014. Семантический анализ для ответа на вопрос с одним отношением. В материалах 52-го ежегодного собрания Ассоциации компьютерной лингвистики, стр. 643–648. Ассоциация компьютерной лингвистики.
[42] Ли Донг, Фуру Вей, Мин Чжоу и Кэ Сюй. 2015. Ответы на вопросы по Freebase с помощью многостолбцовых сверточных нейронных сетей. В материалах 53-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL) и 7-й Международной объединенной конференции по обработке естественного языка.
[43] Hochreiter S, Bengio Y, Frasconi P, et al. Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей [M]. Полевое руководство по динамическим рекуррентным нейронным сетям. Нью-Йорк, штат Нью-Йорк, США: IEEE Press, 2001.
[44] Хохрайтер С., Шмидхубер Дж. Долгая кратковременная память[J]. Neural Comput., 1997, 9(8): 1735–1780.
[45] Грейвс А. Генерация последовательностей с рекуррентными нейронными сетями[J]. CoRR, 2013, abs/1308.0850.
[46] Chung J, Gülçehre Ç, Cho K, et al. Рекуррентные нейронные сети с закрытой обратной связью[C]. Материалы 32-й Международной конференции по машинному обучению (ICML-15). Лилль, Франция: JMLR Workshop and Conference Proceedings, 2015: 2067–2075.
[47] Д. Ван, Э. Ниберг, Модель долговременной кратковременной памяти для выбора предложения ответа при ответе на вопрос., в: ACL , Ассоциация компьютерной лингвистики, 2015 г., стр. 707–712.
[48] Малиновский М., Рорбах М., Фриц М. Спросите свои нейроны: нейронный подход к ответам на вопросы об изображениях[C]// Материалы Международной конференции IEEE по компьютерному зрению. 2015: 1–9.
[49] Гао Х., Мао Дж., Чжоу Дж. и др. Вы разговариваете с машиной? Набор данных и методы для многоязычного изображения. Вопрос [C] // Достижения в системах обработки нейронной информации. 2015: 2287–2295.
[50] Сан М. С. Обработка естественного языка на основе естественно аннотированных веб-ресурсов [J]. Journal of Chinese Information Processing, 2011, 25(6): 26–32.
[51] Hu B, Chen Q, Zhu F. LCSTS: крупномасштабный набор данных для обобщения коротких текстов на китайском языке[J]. Препринт arXiv arXiv:1506.05865, 2015.
[52] Шан Л., Лу З., Ли Х. Нейронный автоответчик для короткого текстового диалога[C]. Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной объединенной конференции по обработке естественного языка. Пекин, Китай: Ассоциация компьютерной лингвистики, 2015: 1577–1586.
[53] Виньялс О. и Ле К.В. Нейронная разговорная модель. arXiv: 1506.05869,2015.
[54] Кумар А., Ирсой О., Су Дж. и др. Спросите меня о чем угодно: сети динамической памяти для обработки естественного языка [J]. Препринт arXiv arXiv:1506.07285, 2015.
[55] Сухбаатар С., Уэстон Дж., Фергус Р. Сквозные сети памяти[C]//Достижения в системах обработки нейронной информации. 2015: 2431–2439.

Оригинальная ссылка: «https://yq.aliyun.com/articles/58745#»

Ссылка:

«https://www.alibabacloud.com/blog/QA-Systems-and-Deep-Learning-Technologies-%E2%80%93-Part-2_p72009»

Системы контроля качества и технологии глубокого обучения — часть 2