Краткий обзор того, что не так в публикации машинного обучения.

Исследователи машинного обучения давно заметили, что качество рецензируемых научных результатов низкое. (Это не означает, что уровень академической строгости в данной области в целом низкий, а скорее, что он очень непоследователен.)

Эта статья основана на статье З. К. Липтона и Дж. Стейнхардта Тревожные тенденции в области машинного обучения, посвященной распространению общих проблем качества в литературе по машинному обучению. В нем резюмируются основные моменты и добавляются некоторые дополнительные комментарии. Если вы (начинающий) исследователь машинного обучения или заинтересованы в этой теме, я настоятельно рекомендую очень удобочитаемую оригинальную статью.

Как мы тут оказались?

За последнее десятилетие сообщество машинного обучения практически резко выросло. Большие успехи в начале 2010-х годов вызвали ажиотаж, который привел к огромному финансированию, и к сообществу присоединились многие молодые исследователи. Хотя этот интерес к данной области, естественно, способствует прогрессу, он также порождает ряд проблем, и мы можем предположить, что они способствуют нестабильному качеству публикаций.

Внезапный рост числа исследователей в этой области увеличил количество представлений в соответствующие рецензируемые места. Это ложится тяжелым бременем на рецензентов, у которых впоследствии остается меньше ресурсов, которые нужно тратить на рецензирование, но это также означает, что в пуле есть много молодых и неопытных рецензентов. Понятно, что в этих условиях качество рецензирования и, следовательно, качество публикации неизбежно пострадают.

Кроме того, исследования машинного обучения сильно связаны с отраслевыми интересами и инвестициями, и некоторые исследователи также основали стартапы, чтобы применить свои выводы на практике. Хотя перевод академических результатов в полезные системы является отрадной тенденцией, возникающая в результате зависимость от денег отрасли и освещения в средствах массовой информации может побудить исследователей сообщать о своих выводах в сенсационной манере и жертвовать точностью в написании и строгостью методологии ради рыночных заявлений. .

Возможно, поскольку сильные эмпирические результаты стали основой недавнего расширения сообщества, прогресс в плане тестов кажется достаточным для некоторых исследований и используется в качестве предлога для менее строгих писаний.

В чем собственно проблема?

Авторы выделили четыре конкретных примера плохой стипендии, относительно распространенной в сообществе ML. Конечно, они не относятся исключительно к исследованиям машинного обучения, но могут быть более распространенными в связи с текущим состоянием области, о котором говорилось выше.

Объяснение и предположение часто не разделяются четко. Хотя и то, и другое имеет свое место в научных публикациях, важно, чтобы читатель мог легко различать их. Если это не так, авторы рискуют, что читатель запутает домыслы как обоснованное утверждение и увековечит его в своем собственном письме.

Еще одним слабым местом некоторых статей по машинному обучению является то, что они не могут точно указать, откуда исходят их эмпирические выгоды. Когда одновременно вводятся несколько архитектурных инноваций, некоторые авторы не могут исследовать, какие из этих изменений на самом деле способствовали улучшенная производительность. Кроме того, лучшие результаты могут быть просто результатом другой процедуры обучения, например лучшая настройка гиперпараметров. Исследования абляции, когда одна или несколько инноваций не учитываются одновременно, являются ценным инструментом для исследования источника эмпирической выгоды.

Математические утверждения добавлены без сильной связи с фактическим содержанием статьи. Эта тенденция, которую авторы называют математикой, - возможно, еще один способ сделать статью более обоснованной. и произвести впечатление на неопытных рецензентов. Математика бесценна для точной передачи идей, поддающихся этому представлению, но предоставление математических утверждений или теорем только для того, чтобы выглядеть более «научными», ухудшает удобочитаемость и запутывает сообщение публикации.

Язык используется неточно. У этой тенденции есть несколько аспектов. Во-первых, возможно, из-за большого количества неопытных исследователей в этой области и огромного количества результатов исследований, технические термины не всегда используются в их первоначальном значении. Это приводит к тому, что у некоторых терминов накапливается несколько значений, и к двусмысленности при использовании этих терминов.

Во-вторых, вводятся термины с предполагаемым значением, часто антропоморфизирующие машину. Это приводит к объединению великих концепций, таких как сознание или справедливость, с простыми статистическими свойствами или выбором алгоритмического дизайна. Такое использование языка может не только быть неискренним, но и сбивать с толку как специалистов в других областях, так и непрофессионалов.

Как поступить отсюда?

Авторы упоминают особенности хороших публикаций и дают предложения авторам и рецензентам о том, как улучшить состояние литературы по ML.

Хорошие статьи должны давать читателю интуицию, а не просто констатировать факты, более того, он всегда должен учитывать альтернативные объяснения наблюдаемых эффектов, иметь четкую связь между эмпирическим и теоретическим анализом и использовать точную и выразительную терминологию.

Помимо устранения вышеуказанных антипаттернов, авторы предлагают провести анализ ошибок, исследования абляции и проверки устойчивости, чтобы выяснить, что работает и почему.

Формулировки того, что было достигнуто, и какие проблемы остались нерешенными или были решены в соответствующей работе, должны быть ясными, чтобы не вводить читателя в заблуждение.

Рецензенты могут более благосклонно относиться к сообщению об отрицательных результатах, а издатели могут способствовать созданию четко написанных обзорных статей, использующих трезвый и точный язык.

Спасибо за чтение и не забудьте ознакомиться с оригинальной статьей: Тревожные тенденции в области машинного обучения. Он наполнен положительными и отрицательными примерами рецензируемого научного общения.