Интервью ICLR по воспроизводимости # 2: Арно Девос, Сильвен Шатель, Матиас Гроссглаузер

Интервью Сесилии Шао

Второе интервью нашей серии было с Арноутом Девосом, Сильвеном Шатель и Матиасом Гроссглаузером. Арно и Сильвен - аспиранты Швейцарского федерального технологического института в Лозанне (EPFL), а Матиас возглавляет лабораторию информационной и сетевой динамики в EPFL.

Хотите узнать больше о проблеме воспроизводимости? Прочтите наш вступительный текст здесь

Итоги интервью (TLDR)

Задачи, с которыми столкнулась команда, включали:

Отсутствуют семена и обучающие файлы
Отсутствие деталей для сверточных параметров (ширина фильтра, отступы и шаг), а также критерия остановки.
Если у вас будет больше времени, команда попробует распределенное обучение, учитывая большой размер наборов данных и вычислительно-интенсивный характер задач.

Подробности отчета о воспроизводимости:

Исходный документ: https://openreview.net/pdf?id=HyxnZh0ct7
Код: R2D2 - https://github.com/ArnoutDevos/r2d2
MAML с поддержкой CIFAR: https://github.com/ArnoutDevos/maml-cifar-fs
PR (содержит отзывы): https://github.com/reproducibility-challenge/iclr_2019/pull/150

Контакт:

Арноут Девос | Github | Linkedin | Веб-сайт | Google Scholar

Интервью:

Примечание: это интервью отредактировано и сжато для ясности.

Сесилия: Для начала, представьтесь, пожалуйста?

Арноут: Здравствуйте. Меня зовут Арноут. Я аспирант Швейцарского федерального технологического института в Лозанне (EPFL). Моих сотрудников Сильвена и Матиаса здесь быть не могло. Сильвен - аспирант EPFL, а Матиас - профессор, возглавляющий лабораторию информации и сетевой динамики в EPFL.

Сесилия: Поняла, как вы узнали о проблеме и почему вы были заинтересованы в участии?

Арно: Думаю, ближе к концу октября Джоэл Пино из Университета Макгилла выступила на EPFL с докладом о воспроизводимости и обучении с подкреплением. Вот где я узнал о происходящем. В то время, когда я читал этот курс машинного обучения, я спросил профессора, можем ли мы использовать тест воспроизводимости как своего рода заключительный проект курса. Он был в восторге от этого, и вот как все произошло.

Я думаю, что в итоге в испытании приняли участие пять или шесть команд из курса машинного обучения EPFL.

Сесилия: Что побудило вас предложить эту идею своему профессору?

Арноут: Это произошло частично потому, что я считаю, что воспроизводимость важна, а также, просматривая статьи, я нашел несколько действительно интересных статей для метаобучения, и это то, о чем в основном моя докторская степень, или о том, кем я являюсь. пытаясь получить степень доктора философии. Так что это было идеально для меня, а также для Сильвена, как я обнаружил позже.

Сесилия: Вы когда-нибудь воспроизводили статью или пытались воспроизвести исследование?

Арноут: Да. Пока я получал степень по информатике в США в USC, мы пытались воспроизвести работу DeepMind. Это было очень сложно сделать, потому что они показали потрясающие результаты, но не выпустили никакого кода.

Сесилия: Есть конкретная причина, по которой вы выбрали эту бумагу?

Арноут: Мы выбрали эту статью в основном потому, что узнали о задаче только в конце октября.

По сути, дифференцируемый закрытый сформированный решатель представляет собой линейную регрессию, которая выполняется поверх глубокой сверточной нейронной сети. Я думал, что статья была довольно понятной. Кроме того, учитывая, что я уже какое-то время занимался мета-обучением, эту концепцию было легко понять.

Мы начали только первого ноября, а крайний срок - 20 декабря. Итак, мы хотели что-то управляемое и полезное для наших собственных исследований, а также мы могли бы чему-то научиться.

Сесилия: Можете ли вы описать, как вы подошли к попытке воспроизвести бумагу?

Арноут: Итак, первое, что мы сделали, - это прочитали. Мы пролистали бумагу, пытаясь понять общую концепцию. Затем, и сначала это может показаться очень простым, мы проверили, действительно ли числа, упомянутые в документе, верны (точность базовой линии и т. Д.). Иногда числа копируются неправильно, поэтому мы проверили, соответствуют ли они ссылкам.

Затем мы перешли к выбору базовой линии. Учитывая короткие временные рамки, мы решили использовать MAML, метаобучение, не зависящее от модели. Мы просто перепрограммировали этот код и также заметили очень небольшие различия в результатах.

Это связано с тем, что на самом деле очень сложно воспроизвести результаты даже с исходным авторским кодом, но, по крайней мере, он был очень близок к результатам, упомянутым в исходной статье MAML. Вы также можете найти эти результаты в нашей работе по воспроизводимости.

Следуя контрольному списку воспроизводимости машинного обучения Джоэла Пино, мы решили предоставить в статье более четкое алгоритмическое описание предлагаемого алгоритма R2D2. Хотя это может выглядеть как копия того, что описано в документе, мы думаем, что это дает намного больше ясности в настройке процедуры и, таким образом, увеличивает воспроизводимость.

Честно говоря, что касается контрольного списка, мы не предоставили планок погрешностей в наших цифрах результатов, чтобы не загромождать их. Мы предоставили всю необходимую информацию в таблицах рядом с рисунками. Затем мы перешли к реализации предложенного алгоритма в статье. Мы немного поделили работу между собой. Нас было трое членов команды, и мы начали заниматься этим.

Одна вещь, о которой стоит упомянуть, заключается в том, что в конце сверточного этапа они получают некоторое количество выходных функций, и нам пришлось сделать некоторые предположения, потому что некоторые основные параметры, такие как ширина фильтра, заполнение и шаг, не были упомянуты в оригинале. бумага.

Сесилия: И вы упомянули, что когда вы начинали с кода MAML и пытались воспроизвести его в первую очередь, ваши результаты на самом деле не совпадали. Так что это почти как несколько уровней воспроизводимости.

Arnout: Итак, в статье MAML есть код, доступный в Интернете, и он тщательно протестирован. Людям, которые пытались реализовать его снова, было трудно достичь того же результата.

Существует статья «Как обучить свой MAML», в которой показано, как сделать процесс обучения более стабильным, и мы сознательно пытались не использовать его, потому что это сделало бы недействительным сравнение с исходным MAML.

Другое дело, что наборы данных получить немного сложно. Вам необходимо загрузить набор данных вручную, поскольку он основан на наборах данных ImageNet и CIFAR. Набор данных CIFAR из нескольких снимков используется в новом документе, который мы пытались воспроизвести, поэтому нам пришлось адаптировать MAML для приема этого нового набора данных.

Заполнение также является другой проблемой, потому что существует очень большая вариативность в заполнении, загрузке наборов данных, заполнении при инициализации. Все это может повлиять на ваш способ обучения. То, как инициализируются параметры, влияет на конечный результат.

Сесилия: Это единственные проблемы, которые вы помните при воспроизведении документов?

Арноут: Нашим ограничивающим фактором было в основном время, потому что мы начали задачу довольно поздно, поэтому, в конце концов, мы могли только сравнить результаты с MAML и воспроизвести статью.

Сесилия: Еще один вопрос: если бы у вас было больше времени, изменили бы вы вообще свой первоначальный подход? Вы бы по-прежнему начали с статьи о MAML?

Арноут: нам все равно придется начать с статьи о MAML. В итоге оказалось, что авторы статьи исходили из прототипов сетей. Они адаптировали свой код на основе этого. Они тоже не писали это с нуля, но это часто случается в области метаобучения или в исследованиях в целом, я думаю.

Просто проведение экспериментов по метаобучению требует времени. На тех машинах, которые у нас есть, на это уходит два-три часа. Если бы у нас было больше времени, возможно, мы могли бы подумать о распределенном обучении.

Сесилия: Вы упомянули, что отсутствуют некоторые параметры. Удалось ли вам обсудить с авторами какие-либо из этих вопросов или вещей, которых не хватало?

Арноут: Отличный вопрос! Мы связались с первоначальными авторами.

Проблема воспроизводимости стимулировала взаимодействие с авторами. и поэтому мы сделали небольшое резюме наших результатов и поместили его на платформу Open Review, и авторы фактически ответили и обновили свою статью, добавив сверточные параметры, а также были более ясны, например, в отношении критерия остановки, который изначально был немного расплывчатым. определяется как «если ошибка не уменьшается значительно за двадцать тысяч итераций»

Сесилия: Последний вопрос. Теперь, когда вы выполнили задачу, изменилось ли это ваше восприятие исследований и ваш подход к своей работе?

Арноут: Да. Как я уже упоминал, я бы больше обращал внимание на посев и на то, как каждый раз получать один и тот же результат. Я надеюсь, что такие фреймворки, как Tensorflow, PyTorch и OpenAI Gym, предоставят либо больше ясности, либо инструкции о том, как этого добиться.

В своем собственном исследовании я постараюсь выпустить воспроизводимый код, когда это возможно. В конце концов, от науки вы хотите, чтобы у вас была работа, которую вы хотите использовать в других приложениях или в дальнейших исследованиях.

Наше следующее интервью будет опубликовано в следующую среду. Обязательно подпишитесь на нас на Medium, чтобы оставаться в курсе.

Хотите узнать, как Comet.ml может помочь вашей команде машинного обучения автоматически отслеживать, сравнивать и воспроизводить результаты экспериментов? Узнайте больше здесь.