Международная конференция по машинному обучению прошла в июле прошлого года в Стокгольме. В целом он продемонстрировал множество интересных тенденций и направлений в машинном обучении. Поскольку ICML была такой огромной конференцией, я сосредоточу свое внимание на нескольких (из многих) интересных направлений, происходящих на конференции.

В частности, ICML этого года разбила устные выступления на несколько различных «треков / сессий». Я был рад увидеть три из этих сессий, посвященных «передаче и многозадачному обучению», так как это уже давно является моей областью интересов. Кроме того, большое количество постеров посвящено этим концепциям, а также несколько оралов из других треков.

Отсутствие больших объемов чистых помеченных данных остается препятствием для потенциального воздействия глубокого обучения. Для многих задач в целом отсутствуют точки данных (например, прогнозирование выборов, диагностика редких заболеваний, перевод на редкие или исчезнувшие языки…). В других случаях данные есть, но они зашумлены или плохо помечены (например, изображения, извлеченные из Google по определенному ключевому слову, медицинские случаи, которым присвоены ярлыки через НЛП, текстовый корпус с лишь частично аннотациями). Какой бы ни была причина, есть ощутимые преимущества в поиске методов обучения на ограниченных или зашумленных (частично связанных) данных.

Три таких подхода к этому - это трансферное обучение, многозадачность (технически это подкатегория трансферного обучения, такая как адаптация предметной области, но в этой статье я буду рассматривать их как отдельные объекты) и полу-контролируемое обучение. Существуют и другие подходы (активное обучение, мета-обучение, полностью неконтролируемое обучение), но в этой статье основное внимание будет уделено статьям ICML, связанным с тремя (особенно первыми двумя). Поскольку границы между этими областями не всегда четкие, мы можем также отважиться на некоторые другие. Для читателей, нуждающихся в обзоре, вот краткий обзор. Для более подробного обзора см. Отличную запись в блоге Себастьяна Рудера о трансферном обучении и многозадачном обучении.

Я всегда считал трансферное обучение и многозадачное обучение очень важными инструментами независимо от отрасли или области. Независимо от того, работаете ли вы в медицине, финансах, в поездках или на отдыхе, и работаете ли вы с изображениями, текстом, аудио или данными временных рядов, есть вероятность, что вы сможете извлечь выгоду из использования общих предварительно обученных моделей и их точной настройки для вашей конкретной области. . В зависимости от ваших данных также весьма вероятно, что существует несколько связанных задач, которые вы можете научить свою нейронную сеть решать совместно и, следовательно, повысить общую производительность.

Особый интерес для тех, кто занимается глубоким обучением в медицине (но полезен также и для других), вызвала статья под названием « Не плакать, волк: многозадачная медицинская помощь при дистанционном обучении ». В палатах интенсивной терапии часто возникает проблема ложных срабатываний тревожных сигналов, настолько много, что медсестры / врачи теряют к ним чувствительность. В этом документе основное внимание уделялось обнаружению реальных опасных для жизни событий в отделении интенсивной терапии вместо ложных тревог с использованием многозадачного и полу-контролируемого обучения. Авторы статьи рассмотрели использование многозадачного обучения с дополнительными задачами для повышения производительности модели без необходимости тратить много времени на аннотирование. В частности, их модель включает большое количество дистанционно контролируемых вспомогательных задач, чтобы значительно сократить количество дорогостоящих лейблов, необходимых для обучения. Во-вторых, они разработали новый подход к дистанционно контролируемому многозадачному обучению, который автоматически определяет большой набор связанных вспомогательных задач из многомерных временных рядов для совместного обучения на помеченных и немаркированных данных. Видео выступления доступно на YouTube.

Что делать, если вам нужны преимущества многозадачного обучения, но у вас есть только одна задача? В статье Расширение псевдозадач: от глубокого многозадачного обучения до внутризадачного обмена - и обратно рассматривается этот вопрос. Авторы предлагают использовать псевдозадачи, чтобы повысить производительность основной задачи. Это возможно, потому что на базовом уровне многозадачное обучение часто работает за счет совместного использования функций между промежуточным и верхним уровнями и декодерами конкретных задач обучения для конкретных задач. Следовательно, обучение модели с несколькими декодерами должно иметь одинаковые преимущества, даже если все декодеры предназначены для одной и той же задачи, потому что каждый декодер изучает задачу по-разному; эти дополнительные декодеры называются псевдо-задачами. Авторы статьи достигли результатов SOTA на наборе данных CelebrityA. Я был рад видеть, что они также протестированы на наборе данных настроений IMDB. Они использовали базовую модель и показали значительные улучшения, тренируясь с их техникой. Это показывает, что метод потенциально может работать с несколькими различными архитектурами нейронных сетей.

GradNorm: нормализация градиента для адаптивной балансировки потерь в глубоких многозадачных сетях

В этом документе описывается новый метод нормализации для многозадачных сетевых сетей, который помогает им быстрее сходиться и повышать общую производительность. Это также уменьшает общее количество гиперпараметров, необходимых для настройки, до одного. Используя GradNorm, они достигли SOTA в наборе данных NYU2. В целом, это надежная статья, которая может помочь уменьшить сложность и трудности обучения алгоритмов MLT. Наконец, авторы делают интересное наблюдение, что «GradNorm может иметь приложения, выходящие за рамки многозадачного обучения. Мы надеемся расширить подход GradNorm для работы с моделями балансировки классов и последовательностей, во всех ситуациях, когда проблемы с конфликтующими градиентными сигналами могут ухудшить производительность модели ».

Перенести обучение через обучение в перенос

До этого момента в большинстве работ по переносу обучения изучалась только передача знаний из исходного домена в целевой домен либо путем предварительной инициализации весов и замораживания слоев, либо путем снижения скорости обучения. Этот документ лучше всего можно описать как «мета-трансферное обучение» или изучение того, как лучше всего выполнять задачи трансферного обучения (L2T). Авторы описывают это:

В отличие от L2T, все существующие исследования по переносному обучению переносятся с нуля, то есть с учетом только пары представляющих интерес областей, но без учета предыдущего опыта передачи по обучению. Более того, L2T может даже собрать воедино всю мудрость алгоритмов, учитывая, что любой алгоритм, упомянутый выше, может быть применен в процессе передачи обучения.

Это естественным образом приводит к вопросу, чем это отличается от «метаобучения». В действительности L2T можно рассматривать как особый тип метаобучения; как и в случае с мета-обучением, он использует прошлые истории, чтобы улучшить процесс обучения. Однако в этом контексте история относится к задаче передачи обучения от исходного домена к целевому.

Авторы статьи оценивают L2T-фреймворк на Caltech-256 и делают наброски наборов данных. Модель улучшает предыдущие результаты SOTA, особенно в случаях, когда есть несколько примеров.

Я был рад увидеть, что Явное индуктивное смещение для передачи обучения с помощью сверточных сетей попало в ICML после (на мой взгляд несправедливо) отклонения ICLR. В этой статье описывается способ применения регуляризации для эффективного участия в трансферном обучении вместо изменения скорости обучения. Авторы предлагают несколько новых методов регуляризации, которые применяют различные штрафы в зависимости от весов в предварительно обученной модели. Они дают хорошие экспериментальные результаты, и в настоящее время я работаю над их применением к нескольким моим моделям медицинской визуализации.

Обучение по учебной программе путем передачи обучения: теория и эксперименты с глубокими сетями - это в первую очередь теоретическая работа, в которой исследуется обучение по учебной программе, идиома обучения, заимствованная из образования / психологии и направленная на более сложное обучение. концепции в прогрессивной и организованной манере. В частности, в статье рассматривается взаимосвязь между трансферным обучением и обучением по учебной программе, а также взаимосвязь между обучением по учебной программе и порядком примеров, представленных для обучения, и его влияние на стохастический градиентный спуск. Здесь важно отметить, что этот тип передачи не совпадает с другими типами, которые обсуждались до сих пор. В этом контексте трансферное обучение относится к исследованию передачи знаний от одного классификатора к другому, как в классификаторе учителя классификатору ученика. Следовательно, при таком типе обучения передачи передается не представление экземпляра, а скорее ранжирование примеров обучения. Авторы приходят к выводу, что скорость обучения всегда выше при изучении учебной программы и что иногда окончательное обобщение улучшается, особенно в отношении сложных задач.

Изучение семантических представлений для неконтролируемой адаптации домена

Одна из проблем (неконтролируемой) адаптации домена - согласование между целевым и исходным распределением. Адаптация предметной области без учителя - это разновидность трансферного обучения. Здесь авторы разрабатывают сеть семантической передачи, которая изучает представления для немеченых целевых выборок путем совмещения помеченного исходного центроида и псевдо-помеченного целевого центроида. Проще говоря, их метод направлен на выравнивание распределений источника и цели на основе минимизации общего несоответствия отображения между исходным и целевым доменами с помощью функции семантических потерь. Результаты включают производительность SOTA для наборов данных ImageCLEF-DA и Office31. Их код доступен онлайн, нажав здесь.

Обнаружение и исправление сдвига метки с помощью предсказателей черного ящика - еще один интересный документ, связанный с адаптацией предметной области. Он фокусируется на том, как обнаружить изменения в распределении y между обучением и тестированием, что может быть полезно, особенно в медицине, если происходит какая-то эпидемия или вспышка болезни, которая сильно влияет на распределение.

Столкнувшись со сдвигом в распределении между обучающим набором и набором тестов, мы хотим обнаружить и количественно определить сдвиг, а также исправить наши классификаторы без меток набора тестов.

Конкретная тема статьи - это в первую очередь ковариативный сдвиг. Авторы разрабатывают несколько интересных имитаций сдвига этикеток, которые затем применяют к набору данных CIFAR-10, а также к MINST. Их методы могут значительно повысить точность по сравнению с некорректированной моделью.

Исправление гетерогенных моделей с помощью семантического сопоставления

Я нашел эту статью интересной тем, что она включает в себя оптимальный транспорт с целью согласования распределений.

Оптимальный транспорт (OT) становится основным инструментом в REFORM, который позволяет согласовывать распределения

В целом, в этом документе представлены оригинальные идеи и получены хорошие результаты как для синтетических наборов данных, так и для наборов данных реального мира, включая набор данных Amazon User Click и набор данных классификации Academic paper.

Это были лишь некоторые из интересных работ с ICML 2018; есть много других замечательных работ. Я действительно надеюсь в какой-то момент подвести итоги метаобучения и остальных статей для частично контролируемого обучения. Эти статьи мне тоже показались интересными.

Объявления

Я все еще работаю над завершением следующей статьи из моей серии о развертывании моделей машинного обучения в производственной среде. В этой статье я расскажу об использовании SeldonCore и Kubeflow для масштабируемого развертывания моделей машинного обучения.

Данные и аналитика Северной Новой Англии проводят 15 августа встречу по данным, на которой мы рассмотрим развертывание недавней модели НЛП с помощью Seldon Core и Kubeflow, чтобы использовать ее в чат-боте. Встреча будет транслироваться на Zoom.