Резюме

Напоминаем, что цель нашей команды - улучшить базовую модель показателя DROP на 47,24% F1 и 44,24% EM. DROP вводит более сложные рассуждения, заставляя модель выполнять арифметические операции и счет в дополнение к извлечению диапазона. Мы создаем / модернизируем модель QANet с числовым расширением (NAQANet), которая использовалась для этой базовой линии. NAQANet хуже всего справлялся с арифметическими операциями, поэтому наша подзадача - улучшить эту конкретную область модели. На основе предыдущего исследования мы сузили слабые места в части модели сложения / вычитания до двух конкретных областей:

  1. Плохое понимание прочитанного из-за плохого извлечения чисел.
  2. Плохое числовое обоснование (добавление / вычитание чисел) из-за плохого вложения и кодирования слов (просто вложения GloVe, а не контекстуализированные вложения, такие как BERT или ELMo).

Мы решили сначала улучшить кодировку чисел с помощью BERT и / или ELMo. В настоящее время мы также пытаемся улучшить понимание прочитанного, в частности, извлечение чисел.

Наше предыдущее обновление также включало созданную нами простую базовую модель, которая немного сокращает время обучения. Мы уменьшили количество эпох до 10, количество блоков кодирования в нашей модели и лимит прохода / вопроса, который мы отправляем в качестве входных данных в модель (если лимит прохода равен 400, то считыватель набора данных отрубит прошедшие токены. 400, и пройти через первые 400 жетонов перехода). Эта простая базовая модель набрала 36,48% балла F1 и 33,69% балла EM. Мы используем эти же настройки для наших новых дизайнов и сравниваем с этим простым базовым планом.

NAQANet с ELMo

К сожалению, у нас по-прежнему были проблемы с обучением с ELMo, и мы не смогли сузить прямую проблему, связанную с этой ошибкой. Когда мы тренировали NAQANet с предварительно обученными встраиваемыми версиями ELMo, модель зависала до завершения одной эпохи. В первую эпоху он будет постоянно замерзать примерно на 70%. Мы продолжали пробовать различные параметры конфигурации для нашей модели, но не смогли заставить эту модель работать. Мы решили двигаться дальше и придерживаться BERT.

NAQANet с BERT

Мы видим улучшения в этой сети NAQANet, модифицированной BERT! Опять же, простая базовая модель дает 36,48% балла F1 и 33,69% балла EM. Простая модель Bert получила 39,77% баллов F1 и 36,69% ​​баллов EM. Ниже показан прогресс модели во время обучения.

Наши следующие шаги для этой интегрированной модели BERT:

  1. Обучите простую базовую линию и простую модель BERT для более длительных периодов, чтобы увидеть, просто ли она тренируется быстрее или на самом деле работает лучше
  2. Если это сработает, мы обучим модель BERT с исходными настройками конфигурации базовой линии и сравним ее с исходной базовой линией.

Понимание прочитанного

Поскольку BERT показывает многообещающие результаты, у нас было больше времени, чтобы сосредоточиться на понимании прочитанного. Сейчас мы сосредоточены на извлечении большего количества чисел из токенов, чтобы они могли быть введены в нашу модель и предсказаны.

Текущее средство извлечения чисел не распознает такие фразы, как «35 ярдов», как числа, что не позволяет модели правильно выполнять сложение / вычитание. Например, учитывая отрывок: «Хьюстон сделает ничью во второй четверти, когда нападающий Крис Браун забьет 53 ярда и 24 ярда с игры», и спросил: «Сколько ярдов было больше, когда Крис Браунс забил первый мяч с игры. его второй? », система не получает никаких соответствующих входных данных для вычисления правильного ответа.

Мы улучшили DatasetReader для извлечения чисел из уникальных токенов (таких как пример «35 ярдов» выше), а также для гораздо более широкого диапазона чисел в целом (используя библиотеку Python Word2Number вместо простого жестко закодированного слова- to-number map, которая была реализована ранее). Если быть точным, наш улучшенный DatasetReader извлекает 145 156 чисел из обучающего набора по сравнению со старым DatasetReader, который извлекал 91 361 число. Это очень значительное увеличение примерно на 59%. Мы очень рады видеть, как это повлияет на производительность нашей модели.

Хотя у нас нет полностью обученных моделей, использующих этот улучшенный DatasetReader (в настоящее время мы обучаем), мы надеемся, что это улучшенное извлечение чисел поможет повысить точность нашей модели для вопросов, связанных с арифметикой.

Дальнейшие действия для расширенного решения № 2

Мы улучшили встраивание слов для NAQANet с помощью BERT и, следовательно, улучшили одну из слабых сторон модели. В настоящее время мы работаем над улучшением понимания модели при чтении. Наше второе усовершенствованное решение объединит улучшения из обеих областей в одну модель. После проверки того, что наши улучшения извлечения чисел действительно улучшают базовый уровень, объединение этих двух улучшений в одну модель станет нашим основным направлением в дальнейшем.

Командная игра

Обсудив нашу командную работу в группе, мы чувствуем себя комфортно и довольны всеми нашими усилиями. Мы все чувствовали себя немного виноватыми за свои усилия по отдельности, но мы согласились, что это произошло из-за отсутствия результатов из-за проблем с тренировками, а не из-за усилий, которые мы все прилагаем. Конкретные вещи, в которых мы чувствуем себя хорошо:

  • Планирование и организация. Мы выделили две отдельные встречи в неделю, на которые всегда будем приходить в случае необходимости. Это позволяло нам идти в ногу со временем и оставаться на одной волне на протяжении всего квартала.
  • Индивидуальные усилия. При необходимости команда в целом увеличивает каждую неделю, если нам нужно наверстать упущенное или сосредоточиться на чем-то конкретном. В частности, мы действительно хорошо позаботились о том, чтобы у нас было достаточно контента для наших блогов и обновлений команды, и каждый из нас индивидуально приложил необходимое количество усилий для выполнения этих подзадач.
  • Общение. Мы эффективно общаемся в течение недели, чтобы информировать друг друга о ходе реализации нашего проекта, над чем мы можем работать индивидуально и т. д.

Что касается возможностей для улучшения, я не думаю, что мы чувствуем, что нам еще есть чем заняться. У нас отличная командная химия, наша мораль высока, мы добиваемся большего технического прогресса, чем раньше, и у нас есть четкое направление, в котором мы все хотим двигаться. Мы очень рады видеть результаты нашей работы примерно через месяц.