Трансферное обучение, практика применения знаний, полученных при выполнении одной задачи машинного обучения, для решения второй задачи, добилось исторического успеха в области компьютерного зрения. Выходные представления общих моделей классификации изображений, обученных в ImageNet, были использованы для построения моделей, которые обнаруживают присутствие настраиваемых объектов в естественных изображениях. Задачи классификации изображений, которые обычно требуют сотен тысяч изображений, могут быть решены с помощью простых десятков обучающих примеров для каждого класса благодаря использованию этих предварительно обученных представлений. В области обработки естественного языка, однако, наблюдались более ограниченные выгоды от трансферного обучения, при этом большинство подходов ограничивалось использованием предварительно обученных представлений слов. Другие подходы используют среднее значение, максимальный пул или последний выход представлений последовательностей, созданных моделями RNN, в качестве представлений документов и изучают облегченные модели поверх этих представлений функций, чтобы использовать знания ранее обученных моделей NLP. К сожалению, при сокращении информации о последовательности до одного вектора фиксированной длины для каждого документа посредством объединения эти методы приносят в жертву потенциально полезную информацию, содержащуюся в представлениях последовательностей.

[Статья по теме: Лучшее исследование машинного обучения за 2019 год]

В этом выступлении Мэдисон Мэй на ODSC East 2018 мы исследуем механизмы эффективного использования параметров и данных для передачи обучения с использованием представлений последовательностей, а не векторов документов фиксированной длины в качестве средства связи между моделями, и покажем практические улучшения в реальных задачах. . Кроме того, мы демонстрируем использование Enso, библиотеки с открытым исходным кодом, разработанной для упрощения сравнительного анализа методов трансферного обучения для широкого спектра целевых задач. Enso предоставляет инструменты для справедливого сравнения различных представлений функций и моделей целевых задач, поскольку объем обучающих данных, доступных для целевой модели, постепенно увеличивается.