Личное примечание. Привет, это мой первый пост за месяц! Я планировал писать каждую субботу, но я был занят в гостях у друзей в Нью-Йорке, в гостях у родителей в Сан-Франциско, а затем отчаянно пытался восстановиться после двух выходных. Итак, мы здесь.

Предисловие. В этом посте я собираюсь изложить идею, о которой я думал некоторое время, относительно научных работ в области компьютерных наук, которые, как я думаю, окажут реальное положительное влияние. Однако на самом деле это не формальное предложение, поскольку, если бы я действительно пытался сделать это прямо сейчас, я бы а) начал с обсуждения с моими наставниками, у которых, вероятно, были бы полезные идеи, чтобы сделать это более разумным / практичным, б ) исследовать другие подобные предложения, которые, я уверен, существуют, но я не смог найти в первоначальных запросах, c) нужно вложить много времени и политического капитала, которых у меня нет, и d) придумать решения для некоторых из основных препятствий, которые я буду обсуждать ниже. Тем не менее, я действительно думаю, что было бы здорово иметь такую ​​​​систему, и поэтому я решил организовать свое мышление и опубликовать этот физический пост как вызов самому себе, чтобы попытаться работать над чем-то подобным в будущем.

Будучи студентом, я хотел специализироваться в НЛП, но, к сожалению, у меня не было доступа ко многим курсам в этой области. Был один курс машинного перевода, и все. Когда я начал свою магистерскую программу, у меня была возможность посещать еженедельные семинары/группы чтения по материалам НЛП, но я чувствовал, что совершенно не в теме. Вместо этого первым делом я прошел базовый курс НЛП, который дал мне отличную основу, а во втором семестре я прошел семинар для выпускников, на котором были рассмотрены последние работы в различных областях НЛП. Между основным курсом НЛП и первыми несколькими неделями семинара для выпускников у меня было достаточно опыта, чтобы не отставать от еженедельного семинара по НЛП, хотя до конца этого семестра (который включал контролируемый курс машинного обучения) мне потребовалось, чтобы действительно разбираетесь в большинстве концепций и чувствуете себя комфортно в целом.

Очевидно, мне очень повезло, что у меня были такие возможности, но я задавался вопросом, как кто-то, у кого не было доступа к этим курсам, мог надеяться получить знания, необходимые для понимания того, что происходит. И хотя теперь я понимаю значение LSTM, RNN, Attention, NER, Sentiment Analysis, SQuAD, что, если я захочу прочитать статью о сетях, безопасности или теории? Существуют общие концепции и идеи, которые затрудняют проведение новых исследований в этих областях без волшебного приобретения опыта аспиранта в этой области. А иногда даже быть удобным в подполе недостаточно, если вы не будете в курсе последних событий; недавний Devlin et al. BERT должен отослать читателей к другим документам и руководствам, чтобы убедиться, что они понимают основы своего многоуровневого двунаправленного трансформирующего кодера, модели, которая в последнее время используется все чаще, но все еще достаточно новая.

Способ, который я вижу, чтобы помочь смягчить эти проблемы, будет чем-то, что я предварительно назову «Стандартизированными фоновыми ссылками» или SBR. Каждый СРП будет объяснять широко используемую концепцию или набор концепций в данной области. В начале каждой статьи авторы будут включать список СРП, с которыми читатель должен быть знаком; в этом случае ожидается, что они объяснят только понятия, не включенные в эти СРП. Если читатель не знаком с СРП, он может прочитать его, чтобы получить необходимую справочную информацию для понимания документа.

Если использовать документ BERT в качестве примера, документ, вероятно, будет относиться к нескольким видам SBR:

  1. Основной SBR: фон подполя. Для BERT это будет «Основное НЛП», включая основные концепции НЛП и общие области изучения.
  2. Групповой SBR: один SBR, связанный с несколькими связанными SBR. Для BERT это может быть что-то вроде Neural NLP, которое будет ссылаться на базовый SBR в нейронных сетях, а также SBR на более специализированных нейронных концепциях, имеющих отношение к NLP, таких как LSTM, GRU, внимание и т. д.
  3. СРП концепции: СРП, охватывающий одну концепцию. Для BERT это может конкретно указывать на SBR по трансформаторам (вместо нескольких документов и руководств, на которые он ссылается в 3.1). Упомянутые выше SBR LSTM, GRU и Attention также будут концептуальными SBR, но BERT будет связываться с группой, а не с каждым из них по отдельности. Также, вероятно, будут существовать концептуальные SBR для наборов данных, таких как SQuAD, хотя в некоторых случаях (например, SQuAD) SBR может быть просто документом, в котором представлен набор данных.

По мере роста популярности и важности концепции (как, по-видимому, сейчас делают Трансформеры), она может быть включена в существующую групповую SBR, поэтому Neural NLP SBR будет иметь версию 1.1, которая теперь включает трансформеров. Очевидно, ученые не стали бы очень тщательно отслеживать, в какой версии каждого базового/группового СРП они работали, но если вы читали статью и находили термин, о котором ничего не знали, вы могли вернуться к СРП и посмотреть, что там было. был добавлен в последних версиях, чтобы обновить ваши знания.

Таким образом, теоретически начинающий ученый в любой точке мира может понять любую статью, если он прочитает полный список СРП, на который она ссылается (это может быть весьма существенным). Таким образом, стипендия может стать более доступной для мотивированных людей из самых разных слоев общества. Кроме того, это помогло бы авторам избежать заполнения своей статьи предысторией, которую большинство читателей должно знать, но они не хотят предполагать.

Конечно, необходимо преодолеть множество серьезных ловушек, две из которых я расскажу здесь.

  1. Создание и поддержка SBR. Чтобы ссылаться на СРП, они должны существовать, что создает множество проблем. Они должны быть хорошо написаны, достаточно краткими, но при этом полностью информативными; есть также много тем, которые являются довольно спорными, и необходимо позаботиться о том, чтобы СРП не были испорчены учеными, продвигающими свои собственные предпочтения. Людям пришлось бы написать их все, что на данный момент было бы довольно важной задачей. Кроме того, после того, как они будут написаны, необходимо будет поддерживать экосистему, при этом новые СРП будут писаться по мере того, как новые темы станут необходимыми фоновыми знаниями, а различные групповые СРП будут обновляться для включения важных концепций и документов. Это был бы серьезный объем работы, и ее снова нужно было бы выполнить таким образом, чтобы все сообщество по-прежнему доверяло экосистеме SBR и использовало ее. Также должен быть какой-то центральный орган для предотвращения таких ситуаций, как 13 различных вариантов Core NLP SBR с различной информацией в каждом.
  2. Обеспечение принятия стандарта. Даже если СРП существуют, их необходимо использовать. Хотя я надеюсь, что со временем в документах будет специальный раздел в начале с СРП, изначально было бы целесообразно включить ссылки на них во введение или при объяснении модели, чтобы отдельным авторам не составило труда начать применять это без серьезной поддержки со стороны конференций. Однако, чтобы быть полезным, он должен быть широко принят, а это означает, что нынешним ученым придется потратить время на ознакомление с информацией в соответствующих СРП. Это не кажется невыполнимой задачей, но тратить 5+ часов на просмотр информации, которую вы в основном уже знаете, не кажется хорошим использованием времени, поэтому это потребует некоторого убеждения и не может быть принято как данность.

В заключение, я думаю, что эта концепция или что-то в этом роде обещает улучшить то, как научное сообщество представляет исследования, но есть некоторые серьезные препятствия, которые я выявил (и, вероятно, многие другие, о которых я еще даже не думал). которые стоят на пути.