Количество статей, опубликованных за последнее десятилетие в области исследований с поразительными результатами, увеличилось, но так ли они практичны, как кажутся на первый взгляд? Насколько надежны результаты? Авторы написали противоречивую статью с этой озабоченностью путем систематического исследования, в котором они проанализировали исследовательские работы, предлагающие новые алгоритмы в системах рекомендаций на конференциях высшего уровня. Они добились впечатляющих результатов. Результаты показали, что большинство документов невозможно воспроизвести, что означает, что они не могут быть выполнены в одной и той же определенной среде и достичь тех же результатов, что и в исходной статье.

Пойдем глубже:

Воспроизводимость результатов - это кризис в нескольких областях наших научных публикаций, что означает, что вы можете многократно запускать алгоритмы на определенных наборах данных для получения тех же результатов. Более того, выбор слабой или плохо настроенной базовой линии - еще одна проблема, с которой мы можем столкнуться. Помимо проблем воспроизводимости и выбора исходных условий, еще одной проблемой является использование исследователями различных наборов данных, протоколов оценки, показателей эффективности и этапов предварительной обработки. Все эти проблемы затрудняют определение лучшего из предложенных методов.

В этой статье делается попытка оценить уровень воспроизводимости и прогресс, достигнутый в области рекомендательных систем за последние годы, чтобы сделать вывод о том, насколько исследования в этой области воспроизводимы и приводят к лучшей производительности, чем хорошо настроенные ненейронные линейные алгоритмы.

В первом исследовании они выбрали длинные статьи, применяющие технологии глубокого обучения к традиционной задаче рекомендаций top-n (вычисление рекомендаций на основе прошлых взаимодействий с пользователем), опубликованные между 2015 и 2018 годами на конференциях KDD, SIGIR, TheWebConf и RecSys. После этого они попытались воспроизвести выбранные статьи, когда был доступен общедоступный набор данных с исходным разделением тестовых поездов, используемым их авторами, или информация о разделении и исполняемом коде. В конце концов, они выяснили, что только 7 из 18 выбранных работ воспроизводимы.

Во втором исследовании они повторно выполнили эксперименты, описанные в выбранных статьях, и сравнили их с простыми, но хорошо настроенными базовыми методами, хорошо описанными в статье. Удивительно, но результаты показывают, что 6 из 7 алгоритмов глубокого обучения не превосходят простые, но хорошо настроенные базовые методы.

На мой взгляд, статья указывает на важные вопросы в области исследований, которые обычно недооценивают, такие как воспроизводимость и масштабируемость. Он напоминает о важности предоставления кода и используемых данных, чтобы каждый мог воспроизвести результаты и использовать соответствующие механизмы предварительной обработки и выборки данных для обеспечения масштабируемости.

Еще один заметный момент в этой статье - это утверждение, что уровень прогресса, достигнутый в подходах к нейронным рекомендациям, неясен.

Как описано в документе, основными причинами этого фантомного прогресса являются:

  1. Выбор слабой базовой линии без должной оптимизации.
  2. Ошибки, которые были допущены при разделении данных, применении конкретных мер оценки и протоколов.
  3. Принимая во внимание современную базовую линию, которая не обязательно является надежной базой.
  4. Не выбирать метрики оценки, касающиеся контекста приложения.

Эта статья заслуживала того, чтобы быть объявленной отмеченной наградами, не только из-за заметных результатов, упомянутых выше, но и из-за похвальных усилий по оценке нейронных методов как можно более справедливо в той же определенной среде. К тому же эта статья написана красноречиво. Я имею в виду, что любой технический термин объясняется и позволяет ясно понять без каких-либо предварительных знаний.

источник: [1907.06902] Действительно ли мы добиваемся большого прогресса? Тревожный анализ последних подходов к нейронным рекомендациям (arxiv.org)