Учиться усваивать знания

В отличие от хорошо известного набора данных, в нашей реальной проблемной области всегда есть только небольшой помеченный набор данных, в то время как мы, возможно, не сможем обучить хорошую модель в этом сценарии. Увеличение данных - это один из способов генерации синтаксических данных, в то время как метаобучение - еще один способ решить эту проблему.

В этой серии рассказов мы рассмотрим различные подходы к метаобучению. Одним из мотивов выполнения этого задания является то, что даже дети могут распознать объект, приведя только один пример. Модель не учится классифицировать конкретную категорию, а обучается модели различать входные данные. Эта серия метаобучений будет охватывать Zero Shot Learning, One Shot Learning, Few Shot Learning, Few Shot Learning, Meta-Learning in NLP.

После нескольких историй о метаобучении я расскажу о том, как мы можем использовать метаобучение в задаче классификации НЛП, поскольку классификация является одной из наиболее распространенных проблем в НЛП.

Изучение вложений намерений с нулевым выстрелом

Chen et al. применил Zero-Shot Learning при передаче текстового ввода и метки во вложения, чтобы он мог обрабатывать невидимые метки.

Одна из проблем при разработке виртуального агента (например, Apple Siri, Google Assistant, Amazon Alexa) - безграничность намерений. Классический способ обработки невидимых меток - подготовить большой объем обучающих данных для невидимых меток, чтобы модель могла их классифицировать. Однако для нового обучения и маркировки этих данных может потребоваться больше времени. Таким образом, Chen et al. Предлагаем использовать метод обучения с нулевым коротким замыканием, чтобы на лету выучить как вложения для высказывания, так и намерения.

Subword

Чтобы решить проблему отсутствия словарного запаса (OOV), вводятся подслова для обработки всех текстовых входных данных. Все слова будут разбиты на триграммы, так что мы сможем ограничить размер вложений. Например, вводимое слово «электронная почта» будет разделено на «#em», «ema», «mai», «ail» и «il #», в то время как # указывает на начало и конец слова.

Сетевая нейронная сеть

После токенизации последовательности слова оно будет передано на уровень встраивания, CNN, максимальный уровень объединения и, наконец, генерирует семантический уровень. В конце, используя косинусное сходство для сравнения между вводом (т. Е. Высказыванием) и меткой (например, видимой меткой или невидимой меткой).

Быстрое изучение разнообразных задач по классификации естественного языка

Bansal et al. применять мета-обучение к задачам классификации процессов на нескольких естественных языках (НЛП). Вместо решения одной задачи классификации этот подход нацелен на решение нескольких задач классификации, таких как классификация отношений и логический вывод на естественном языке. Эта модель получила название LEOPARD (L, позволяющая получить o ftmax параметры для r d обратная классификация), которая сочетает в себе трансферное обучение и мета-обучение.

Текстовый кодировщик

Используя самые современные навыки передачи знаний, кодировщик текста использует BERT для преобразования входных текстовых данных во вложения.

Параметры Softmax

Одна из проблем, связанных с поддержкой нескольких задач классификации, состоит в том, что количество меток различается между задачами. Поэтому для решения этой проблемы вводятся параметры softmax для классификации конкретных задач.

Для начальных параметров softmax LEOPARD выбирает данные первой мини-партии для формирования этикеток. Другими словами, он использует BERT (Devlin et al., 2017), многослойный перцептрон (MLP) и tanh для преобразования текста во вложения для представления классов.

Мета-обучение

MAML (Finn et al., 2017) - известный подход к метаобучению. Он включает внутренний и внешний цикл для обучения модели. Для внутреннего цикла требуется несколько шагов обучения на одном и том же обучающем наборе, чтобы получить лучшую потерю при обучении. Чтобы узнать больше о MAML, вы можете посетить эту страницу для получения дополнительной информации.

Поскольку в BERT существует огромное количество параметров, Bansal et al. разделите эти параметры на параметры, специфичные для задачи, и параметры, не зависящие от задачи. Первые n уровней BERT рассматриваются как параметры, не зависящие от задачи и обеспечивающие хорошее представление функций для разных задач.

Забрать

Чтение расширений

Обо мне

Я специалист по анализу данных в районе залива. Сосредоточение внимания на новейших достижениях науки о данных, искусственного интеллекта, особенно в области НЛП и связанных с ними платформ. Вы можете связаться со мной из Medium Blog, LinkedIn или Github.

Ссылка