Обзор последних работ по трансферному обучению для контролируемой целевой задачи.

Передача знаний - важный аспект как для людей, так и для машин. Люди могут получить больше, делясь друг с другом и обучая друг друга. Я хотел бы думать о машинах таким же образом.

Власть приобретается путем обмена знаниями, а не накоплением их.

Трансферное обучение - это метод использования знаний, полученных моделью, обученной для исходной задачи, для решения целевой задачи. В большинстве случаев целевая задача будет находиться в связанной или подобной области данных. Полученные знания относятся к изученным весам.

С точки зрения непрофессионала, T ransfer Learning = Обмен знаниями.

Это особенно полезно, когда маркированных данных, доступных для целевой задачи, мало и / или когда вычислительная мощность меньше. Это потому, что модель не нужно обучать с нуля.

В этой серии я хотел бы вкратце рассказать о последних достижениях в области трансферного обучения, связанных с обработкой естественного языка. В частности, обзор следующих пяти публикаций.

Было широко распространено использование встраивания слов, таких как word2vec, GloVe, в качестве эквивалента трансферного обучения в НЛП. Эти распределенные представления слов используются как стратегия инициализации общего веса. Но в последнее время встраивание слов открывает путь для более сложных вариантов обучения передачи, таких как языковые модели. Это первый пост в серии брифингов о первой статье. Читайте дальше, чтобы узнать больше.

Полу-контролируемое последовательное обучение

Полу-контролируемое обучение - это метод решения контролируемой задачи с небольшим объемом помеченных данных и большим объемом немаркированных данных. Он имеет тот же оттенок, что и процесс трансферного обучения, и поэтому включен в этот список. Это первая из статей, в которых авторы использовали языковое моделирование для контролируемой целевой задачи. В этой статье 2015 года сеть предварительно обучена с использованием автокодировщиков последовательностей и языковой модели.

Авторы экспериментируют с задачами понимания текста, а именно с анализом тональности (IMDB и Rotten Tomatoes) и классификацией текста (20 групп новостей и DBpedia). Они используют стандартную реализацию LSTM с шлюзами ввода, забывания и вывода. Выходной уровень сети LSTM предсказывает метку документа. Но то, что отличает результаты, заключается в простом этапе предварительного обучения - модель рекуррентного языка или автокодировщик последовательности обучается на том же наборе данных (без метки), что и целевая контролируемая задача. Параметры встраивания слов и веса LSTM, полученные на этом этапе предварительного обучения, используются при инициализации контролируемой целевой задачи. Затем сеть обучается выполнению целевой задачи с точной настройкой весов из предварительно обученной модели.

У них более высокий уровень ошибок, чем у предыдущих лучших результатов на тот момент по всем четырем экспериментам. Модели, предварительно обученные с помощью автокодировщиков последовательностей, работают лучше, чем модели, предварительно обученные с помощью языковых моделей. Это может быть связано с тем, что автокодировщики фиксируют долгосрочные зависимости в документах. «Языковое моделирование - это краткосрочная цель, так что скрытое состояние отражает только способность предсказывать следующие несколько слов».

Они также вкратце изучили использование других наборов данных для предварительного обучения. (Метод, широко используемый в других работах). Эксперименты с набором данных Rotten Tomatoes дают наилучшие результаты при предварительном обучении с использованием данных обзоров фильмов Amazon.

Важным вкладом этой статьи является возможность использования рекуррентных сетей LSTM для задач классификации документов с большим количеством слов. Предварительно обученный автоматический кодировщик последовательности или языковая модель стабилизируют сети LSTM. Кроме того, авторы продемонстрировали, что немаркированные данные могут компенсировать отсутствие помеченных данных. Это очень важно, поскольку данные без ярлыков дешевле, чем данные с ярлыками.

Некоторые ссылки и дополнительная литература:

  1. Статья Полуконтролируемое последовательное обучение.
  2. Настал момент ImageNet для НЛП в фильме Градиент Себастьяна Рудера
  3. Трансферное обучение - новый рубеж машинного обучения Себастьян Рудер

Это первый пост из серии. Я кратко рассмотрю другие статьи в следующих статьях. Любые отзывы / предложения приветствуются. Не стесняйтесь оставлять комментарии ниже или обращаться ко мне в Twitter или LinkedIn.