Уроки, извлеченные из десятков проведенных и полученных экспертных обзоров

Рецензирование - это основной процесс научного сообщества, и он всегда предшествует публикации статьи в научном журнале или конференции. Его цель - получать отзывы от коллег-исследователей, которые анализируют вашу работу на основе собственного опыта и оценивают ее по некоторым критериям, таким как новизна, техническая корректность и даже удобочитаемость.

В областях, связанных с ИИ (например, компьютерное зрение, обработка естественного языка, обработка речи и т. Д.), Этот шаг часто откладывается или полностью пропускается из-за таких инструментов, как arxiv.org. Ariv - это сервер препринтов, его цель - заблаговременное распространение и обсуждение новых работ, но многие опубликованные на нем статьи становятся очень популярными еще до начала рецензирования. А иногда экспертная оценка вообще не проводится. Многие из таких документов действительно являются очень ценными работами, но в некоторых случаях некоторые идеи распространяются без получения зеленого света от сообщества и по уважительным причинам.

Это плохо? Это хорошо? Конечно, arxiv предотвращает некоторые механизмы контроля, которые могут заблокировать карьеру молодого исследователя. С другой стороны, наш мир наводнен статьями, и для новых исследователей (или специалистов по обработке данных / инженеров, которым необходимо их прочитать) может быть очень сложно отличить хорошую работу от плохой. При таком большом количестве бумаг нам нужен способ сузить круг наших интересов.

В этом посте я хочу поделиться уроками написания / чтения статей, которые я извлек из рецензирования, и когда я говорю «чтение», я имею в виду рецензирование. Это хорошее упражнение - подходить к чтению всех работ, с которыми вы сталкиваетесь, в том числе и самых популярных, в качестве обзора. Они не представляют установленных знаний, и обычно требуется несколько лет, прежде чем сообщество воспроизведет и широко воспроизведет эксперименты, чтобы усвоить новые знания. Итак, позвольте скептицизму и критике предвосхитить ваш энтузиазм. Чтение займет больше времени, но в процессе вы узнаете больше.

Советы по написанию

В следующем разделе я описываю различные аспекты статьи для анализа, которые, кстати, являются теми, которые вам необходимо оценить при рецензировании на конференции. Эти предложения являются результатом четырех лет написания и чтения, получения отклоненных статей и их улучшения в соответствии с предложениями рецензента. Я знаю, что четыре года - ничто по сравнению с десятилетним опытом многих профессоров. Однако это уроки, усвоенные на горьком опыте, и я подумал, что могу облегчить чью-то жизнь, записав их. Обсуждаемые моменты действительны как для письма, так и для чтения, но писать, очевидно, труднее, и поэтому я хочу добавить кое-что об этом перед тем, как начать.

Во-первых, чем лучше вы овладеете английским языком и научным письмом, тем лучше. Для принятия статьи необходимо хорошее исследование, но этого недостаточно. Ваши читатели должны понимать, что вы сделали и что это ценно. Прочитать о научном письме и попытаться улучшить непрерывно. Никогда не прекращайте учиться, никогда не думайте, что ваши навыки письма достаточно хороши. Есть носители языка, пишущие в той же области, что и вы, и есть исследователи, получившие образование лингвистов, которые всегда будут писать лучше вас. К счастью, это непрерывная работа, и если все пойдет хорошо, когда вы еще раз перечитаете свои доклады годичной давности, вам будет неловко писать проблемы. Чтобы улучшить свои навыки быстрее, не ограничивайтесь написанием статей по окончании исследовательской работы. Пишите черновики, предложения, даже блог (смотрите на то, что я делаю, а не на то, что я говорю;)) и, самое главное, получайте отзывы. Вы становитесь лучше, когда на ваши ошибки указывают и исправляют.

Во-вторых, помните о своей аудитории. Ваша статья должна соответствовать правилам написания статьи конференции / журнала, для которой вы пишете, а также результаты должны быть правильного типа. Например, исследование о том, как технологии помогают переводчикам, вряд ли будет опубликовано в EMNLP, но оно идеально подойдет для конференции по машинному переводу, такой как MT Summit. Точно так же новый крутой интерфейс для сбора данных может быть очень полезен для многих задач, но, если он не предлагает новые модели глубокого обучения, он никогда не дойдет до NeurIPS. Или на конференциях по машинному обучению требуется гораздо больше математических текстов, чем на других конференциях.

В-третьих, всегда пишите, думая о своем читателе. Напомните, ваш читатель не у вас в голове. Ваш читатель не знает того, что знаете вы, не имеет вашего опыта, не знает, о чем вы думали во время письма, и определенно не знает ваших предположений. Если только ты все не запишешь. Тогда написание статьи - это не о праздновании самого себя. Никто не читает вас, чтобы знать, что вы можете сокрушить всех конкурентов и превзойти самые современные результаты. Научная статья - это способ поделиться новыми знаниями, и ваши читатели хотят именно этого. Всегда спрашивайте себя, почему читатель (и рецензент) должен интересоваться вашей работой, почему им вообще это должно быть интересно и как вы можете сделать ее более интересной. В корпоративном мире наиболее успешными являются те компании, которые могут лучше интерпретировать потребности своих клиентов и соответственно предлагать продукты. Письмо требует такого же мышления.

Наконец, научное письмо не должно быть асептичным. Каждый раз, когда вы пишете, рассказывайте своему читателю историю. Если каждый раздел вашей статьи является самодостаточным и в основном представляет собой контур для ваших чисел, он может быть полезен в качестве справочного материала, но вряд ли заинтересует вашего читателя. В исследовательской работе необходимо проследить развитие событий, как в современной сказке: сильный враг угрожает разрушить нашу жизнь (наша проблема); кому-то действительно нужно с ним бороться (мотивация); появляется герой, способный сразиться с противником (предлагаемый способ); другие пытались до него и потерпели неудачу (связанные работы); происходит бой (эксперименты и результаты); но тогда, поскольку мы ученые, победа заменяется анализом борьбы. Наконец, учитывая уроки, извлеченные из анализа, мы просим наше сообщество присоединиться к нашей борьбе и обещаем вернуться к ней в ближайшее время. Когда вы пишете хорошую историю, вы привлекаете внимание и предоставляете гораздо больше, чем просто информацию.

Критические аспекты исследовательской работы

Новинка

Новизна - непростая тема в науке. Исследования, очевидно, должны производить новые знания, но это может означать разные мысли для разных людей, а иногда сообщества переоценивали один тип знания за счет других, в основном из-за исследовательских тенденций или того, что в то время считалось «трудным». .

Самый очевидный пример произошел на конференциях НЛП (и других областях, связанных с «ИИ»), когда все начали использовать глубокое обучение. Казалось, что единственное, что стоит провести, - это предложить новые топологии глубокого обучения для различных задач. Другие важные области, такие как создание лингвистических ресурсов и оценка качества системы, были переданы на второстепенные конференции.

Я думаю, что проблема возникла из-за того, что многие неопытные рецензенты (как и я) были больше заинтересованы в том, чего можно достичь с помощью глубокого обучения, чем в реальном понимании проблемы и того, как ее решить. Такое отношение привело к принятию многих статей, которые мы больше не можем вспомнить, вероятно, потому, что «новые» методы не делали ничего существенно отличающегося от предыдущих, более простых моделей.

К счастью, теперь конференции явно поощряют своих рецензентов иметь более широкий взгляд на приемлемые статьи. Действительно, новизна может означать установление неожиданных связей между двумя различными областями исследования, предложение необходимых корпусов, лучшую оценку или, что еще лучше, подготовить почву для новой задачи.

Новинка во многом связана с тем, что можно считать исследовательскими работами. Несколько лет назад вопрос о том, что что-то можно сделать с помощью глубокого обучения, а затем с помощью RNN, CNN и так далее, был законным вопросом исследования. Теперь это уже не считается интересным (учитывая, что вы можете найти задачу, в которой все это еще не применялось).

Когда вы читаете статью, связывайте ее с предыдущей работой и пытайтесь понять, насколько она нова. Решалась ли эта проблема раньше? Предлагает ли этот документ новый взгляд на проблему? Цен ли ресурс, а метод строительства полезен для воспроизведения?

При написании старайтесь всячески подчеркивать новизну своей работы. Если вы этого не сделаете, никто другой этого не сделает. Выделение новинки также может предложить вам историю, которую вы хотите рассказать вместе с ней.

Ясность

Качество содержания имеет первостепенное значение в исследовательской работе, но для того, чтобы передать содержание, оно должно быть хорошо написано. Хорошая статья имеет хорошую структуру, которая облегчает ее чтение. Аннотация и введение передают сообщение в широком смысле и мотивируют читателя продолжать чтение. В середине должно быть ясно, где найти вашу гипотезу, экспериментальную установку, эксперименты, необходимые предпосылки и как они позиционируются в текущей литературе. Выводы завершают документ, чтобы выделить результаты и почему исследования, содержащиеся в нем, так важны.

Аннотация, введение и выводы должны быть написаны с особой тщательностью, поскольку их цель - убедить аудиторию в том, что статью стоит прочитать.

Если вы пишете статью как новичок, лучше всего придерживаться наиболее распространенной структуры статей, аналогичной вашей в том месте, где вы публикуете. Со временем и опытом вы научитесь менять его, чтобы он лучше подходил к вашей бумаге, но здесь нет необходимости торопиться. Используйте чистую структуру и сосредоточьтесь на письме.

Хороший английский - второй, более сложный момент, касающийся ясности. Грамматика должна быть максимально точной, предложения ясными и лаконичными. Избегайте общих или двусмысленных заявлений. Четко объясняйте цифры и таблицы, которые вы представляете, и никогда ничего не предполагайте. И снова помните:

Читатель не у вас в голове.

Если вы хотите, чтобы ваша статья была понятной для коллег-исследователей, сначала попросите кого-нибудь с другим опытом прочитать ее и рассказать вам, что они считают непонятным. Вы можете быть удивлены реальной читабельностью.

Читая, наслаждайтесь красиво написанной статьей или просто отложите плохо написанную. Если вы не можете понять, что в нем говорится, или если содержание слишком двусмысленно, велика вероятность, что его трудно читать многим другим. Это не будет полезно для предоставления новых знаний.

Мотивация

Введение в статью должно содержать общую справочную информацию, а также научную проблему, которую он решает, некоторую информацию об используемом подходе и методе, а также о мотивации всего этого. Эту часть можно недооценить при написании статьи, может быть, потому, что кто-то предполагает, что ее ценность очевидна, или потому, что кто-то может подумать, что в статье действительно нужны только результаты. Оказывается, если вы не проводите исследование в переполненной нише, маловероятно, что ваш читатель знает, почему это важно. Иногда мне приходилось получать отказы в работе, в основном потому, что они не были хорошо мотивированы.

Вы можете спросить, почему это так важно, если содержащиеся в нем исследования хорошие. Причина в том, что если вы не можете объяснить важность решения проблемы, как другие могут узнать, что это вообще проблема? Кроме того, любое место публикации имеет ограниченное пространство для статей. Тогда, при прочих равных, работа, в которой решается серьезная проблема, будет цениться больше, чем другая с сомнительной мотивацией.

Я предлагаю хорошо подумать, почему ваши читатели могут найти ваше исследование интересным и изложить его подробно. Если мотивация находит отклик у ваших читателей и решение хорошее, они станут вашими самыми большими поклонниками на планете и будут сражаться за то, что это было принято / известно. Противоположный случай будет звучать так: «метод интересный, результаты хорошие, да, ладно, а какое мне дело?». Постарайтесь быть на хорошей стороне.

При просмотре постарайтесь быть более осторожным. Если мотивация не находит отклика в вас, возможно, вы не понимаете решаемую проблему. Однако, если в статье не удается сформулировать общую проблему и изучаемые в ней аспекты в понятной форме, то на это следует обратить внимание.

Гипотеза

Одним из столпов науки является фальсифицируемая гипотеза: после наблюдения явления я выдвигаю гипотезу и планирую эксперименты, в которых ее предположения верны. Я надеюсь, что моя гипотеза не была подтверждена моими экспериментами, но в будущем она может оказаться неверной / неполной.

Гипотеза должна дать объяснение явлению или оправдать инженерное усовершенствование. В документе это должно быть четко указано, начиная с аннотации и повторяется по всей бумаге. Неслучайно наиболее успешными являются статьи с гипотезами, изменившими наше видение проблем. Внимание - это все, что вам нужно »выдвинула гипотезу о том, что самовнимание более эффективно, чем повторяющиеся нейронные сети при моделировании последовательностей; BERT предположил, что большие объемы немаркированных текстовых данных могут активизировать системы для многих задач НЛП; Изучение знаний в нейронной сети выдвинуло гипотезу о том, что нейронная сеть может изучать скрытые отношения между целевыми классами, которые более полезны, чем сами исходные данные для обучения новых моделей. Все они теперь широко известны в научном сообществе, но их идеи передавались в сильных и лаконичных сообщениях, а не только в числах в таблице. Напротив, статьи со слабыми гипотезами будут восприниматься как дополнительные работы, а затем перенесены в более низкий рейтинг.

При написании четко изложите свою гипотезу и убедитесь, что предлагаемый вами метод согласуется с ней. Очевидно, что эта часть должна быть выполнена при разработке метода и намного раньше, чем написание статьи, но когда вы пишете, самое время сделать ее понятной для ваших читателей.

При чтении / обзоре спросите себя, ясна ли гипотеза, интересна ли она и согласуются ли с ней эксперименты. Если метод и гипотеза не согласованы между собой, тогда статья не дает знания, а вносит путаницу. Всегда неприятно нажимать «отклонить», если вы чувствуете, что исследование было хорошим, но метод, оправданный с помощью гипотезы, которая на самом деле не верна, приводит к ложным утверждениям. То же самое верно, когда название статьи не согласуется с ее содержанием или анализ / выводы делают неожиданные утверждения. В науке могут случаться ошибки, но откровенно ложные утверждения недопустимы.

Наборы данных / оценка

Набор данных, используемый для ваших экспериментов, не является второстепенным выбором экспериментального плана. Набор данных включает в себя набор областей (или языков для обработки речи и языка), предположений и предубеждений, которые следует учитывать во время исследования. Набор данных должен отражать изучаемое явление. В некоторых исследовательских работах используются наборы данных, которые являются «заместителями» для реальной задачи, но обычно это не очень хорошая идея.

Типичный пример проблем с наборами данных из мира машинного перевода - это статьи о языковых парах с ограниченными ресурсами, и я должен признать, что я совершил ту же ошибку. Во многих статьях представлены методы для условий нехватки данных, но затем проводятся эксперименты с небольшим (а иногда и не таким уж маленьким) подмножеством большого набора данных. Однако здесь может показаться, что многие методы работают только потому, что небольшие данные дают слабую основу. Кроме того, такой подход предполагает, что языки с ограниченными ресурсами и языки с богатыми ресурсами похожи, только с менее известным словарным запасом. Это в основном принятие желаемого за действительное, поскольку языки могут быть настолько разнообразными, насколько вы можете себе представить. Например, понятия «быть» и «иметь» могут быть выражены множеством различных способов, если они вообще выражены; разные уровни формальности могут привести к совершенно разной лексике; идиоматические выражения действительно связаны с их культурой; разные системы письма, иногда многие вместе. Это лишь некоторые из проблем языков с действительно ограниченными ресурсами, которые трудно выучить из небольших наборов данных.

Другой вопрос - это оценка. Иногда исследователи стремятся предложить новые решения проблемы, которую они до сих пор не знают, как оценить. В этом случае создание метода оценки может способствовать большему развитию области исследования, чем новый метод. Например, « Гендер в опасности? Оценка технологии перевода речи в корпусе MuST-SHE » предлагает воспроизводимый метод оценки качества перевода речи по гендерным явлениям. Метод оценки, необходимый для создания набора тестов с ручными аннотациями в нем. Можно ли лучше? Конечно, да, но мы пока не знаем, как это сделать. И эта статья - большой шаг вперед по сравнению с предыдущими исследованиями гендерной предвзятости перевода, в которых просто оценивалось общее качество перевода и использовалось его в качестве прокси для выполнения своей задачи.

Вы хотите взяться за задачу, но существующие наборы данных / методы оценки недостаточно хороши? Создавайте их, и ваша работа будет намного ценнее, чем те, которые используют сверхсложную нейронную сеть для решения фальшивой задачи.
Помните, что любому, кто приближается к новой области исследования, потребуется программное обеспечение, наборы данных и автоматическая оценка. Упростив доступ к этим ресурсам, вы сможете привлечь внимание (и ссылки) в своем районе. В моем личном случае люди начали замечать меня в области перевода речи из-за кода и набора данных, над которыми я работал.

При написании статьи убедитесь, что используемые наборы данных и методы оценки соответствуют задаче, которую вы хотите решить.

Читая статью, убедитесь, что утверждения во введении / заключении действительно соответствуют результатам экспериментов.

Исходный уровень

Ваши исходные данные являются убедительным показателем того, насколько внимательно вы относитесь к своей работе. Сильный базовый уровень, возможно, более сильный, чем в других опубликованных результатах, означает, что улучшения, обеспечиваемые вашим методом, надежны. Иногда случается, что вы читаете или просматриваете статьи с базовыми показателями, которые конкурируют с результатами 5-летней давности, и они полностью игнорируют все улучшения, достигнутые за это время. Затем, хотя улучшение по сравнению с исходным уровнем может быть значимым, окончательный результат не является надежным. Причина в том, что вклад (с точки зрения конечного результата) многих методов или индуктивных смещений стремится к нулю при применении к более сильным базовым линиям. Например, очень сложно оценить ценность встраивания предварительного обучения в модель нейронного машинного перевода с большим объемом обучающих данных, тогда как они очень эффективны, когда обучающий набор невелик.

Когда вы пишете статью, проявляйте больше любви к своим базовым критериям, и вам ответят взаимностью. Более надежные базовые показатели могут дать вам новое представление о проблеме и выявить некоторые недостатки в том, как она решалась до сих пор. Слабые исходные условия полезны только для попытки опубликовать статью в надежде получить рецензентов, которые не знают вашей области. Пожалуйста, не делай этого.

При чтении статьи, прежде чем удивляться блестящим результатам, представленным в ней, проверьте, цитируются ли в ней недавние статьи в той же области, и убедитесь, что исходные данные согласуются с другими исследованиями. Наличие таблиц, в которых перечислено текущее состояние дел, обычно является ценностью, но всегда дважды проверяйте, действительно ли это современное состояние. Я видел статьи, в которых исключались результаты, о которых они должны были знать (из-за прошедшего времени и небольшого количества опубликованных статей). Таким образом, их результаты выглядели намного лучше, чем были на самом деле. Это действительно плохая научная практика, и ее следует прекратить, как только ее заметят.

Результаты / Анализ

Результаты являются важным аспектом для такой эмпирической области, как НЛП, но внедрение глубокого обучения заставляет нас относиться к ним с недоверием. Что может пойти не так? Убедившись, что исходные условия убедительны, нам нужно оценить сущность улучшения. Относительно небольшие улучшения, хотя и стабильно значимые, все же могут быть связаны со случайностью (например, с другим случайным начальным числом или даже с другой реализацией метода) или с лучшим выбором гиперпараметров. Просто читая статью, трудно сказать, каковы причины улучшения, поэтому я предпочитаю сосредоточиться на анализе. Если анализ может показать согласованность между гипотезой и результатами, то я склонен к положительному отношению. Если анализ показывает что-то только потому, что это необходимо, тогда лучше, чтобы остальная часть статьи была действительно хорошей.

Однако иногда действительно сложно провести анализ, который может показать что-то интересное для исследования. Обычно это происходит потому, что это требует понимания того, что происходит внутри весов сети, что по-прежнему не поддается интерпретации. Затем мы вынуждены предоставлять прокси, чтобы получить некоторое представление о наших методах. Подсказки по-прежнему должны быть связаны с явлением и моделями, которые нас интересуют. В любом случае, если вы читаете статью и находите анализ неудовлетворительным, не будьте слишком негативными, если вы не можете предложить более ценную.

При написании статьи убедитесь, что ваши результаты убедительны, а процедура аналогична предыдущим исследованиям, чтобы читателю было легко их сравнить.

Читая статью, постарайтесь выяснить, действительно ли результаты могут быть связаны с примененным методом или другими не связанными друг с другом факторами. Внимательно прочтите анализ и поймите, является ли он убедительным для изучаемого явления.

Выводы

Написание / чтение / рецензирование научной статьи может быть очень пугающим, но практика и опыт со временем сделают это проще. К счастью, многие статьи имеют одинаковую структуру, которая облегчает чтение, а когда это не так, они либо особенно хороши, либо особенно плохи. Оба случая обычно легко обнаружить. Если вы новичок в написании научных статей, возможно, вы захотите улучшить свои навыки написания научных статей. Интернет полон ресурсов, и те, которые я связал, представляют собой очень небольшую выборку. Так я узнал много полезных советов и рекомендаций. Если вы новичок в рецензировании, вероятно, лучше попрактиковаться, просмотрев опубликованные статьи и попросив кого-нибудь более опытного прокомментировать ваши рецензии. Я надеюсь, что этот пост поможет вам сосредоточиться на важных аспектах, которые помогут вам лучше понять ценность статьи и избежать некоторых ошибок, которые я сделал в начале.







Среднее членство

Вам нравится мой текст и вы рассматриваете возможность подписки на Среднее членство, чтобы иметь неограниченный доступ к статьям?

Если вы подпишетесь по этой ссылке, вы поддержите меня своей подпиской без каких-либо дополнительных затрат для вас https://medium.com/@mattiadigangi/membership