Почему тренировочные данные являются узким местом для НЛП? Пример многоязычного BERT.

Трансферное обучение изменило парадигму в области НЛП, но его надежность с точки зрения более широкого круга приложений все еще ограничена.

Когда вы видите те дискуссии о том, что искусственный интеллект (ИИ) будет опасен для человечества, которые ведутся повсюду в наши дни, спрашивали ли вы также: Почему? По словам одного из вице-президентов Google, когда вы спрашиваете какой штат к югу от Небраски для одной из наиболее сложных языковых моделей (LM), он отвечает Южная Небраска. Так действительно ли этот уровень современного искусства приведет к достижению более умной точки, чем самый разумный вид, который мы знаем во Вселенной, то есть Homo Sapiens? Что ж, мы добрались сюда из бронзового века, так что ответ с таким же успехом может быть да, имея в виду какое-то время в будущем. Однако есть так много препятствий, которые нам нужно перепрыгнуть, чтобы улучшить текущую компетенцию ИИ.

Должен признаться, я был очень взволнован, когда впервые начал читать о трансфертном обучении. Я подумал, что когда кто-то видит такие модели, как ImageNet и BERT, и читает некоторые «раздувающие» статьи, написанные об этих моделях, он может подумать, что мы на самом деле очень близки к чему-то вроде фильма «Она». Затем, когда я начал работать специалистом по данным в корпоративной среде и столкнулся с некоторыми ключевыми бизнес-проблемами в сфере здравоохранения, я понял, что реальные приложения связаны с некоторыми проблемами, которые отличаются от стандартных задач, таких как SOTA или КЛЕЙ. Я видел значения точности + 95% для разных задач, о которых сообщают разные пакеты обучения передачи, стартапы и потенциальные компании-поставщики, и когда я применил их модели к некоторым различным наборам данных, все эти причудливые модели потерпели неудачу под каким-то углом и / или на каком-то уровне. . Так что эта картина теперь для меня более ясна, и я делаю более практический вывод из трансфертного обучения в области НЛП; Большинство из этих захватывающих результатов ИИ действительны только для очень специфических наборов тестов, которые, вероятно, были тщательно отобраны в непосредственной близости от обучающего набора. Итак, в примере, связанном с лингвистикой (мои знания в основном связаны с обработкой естественного языка (NLP), и я не очень знаком с компьютерным зрением, поэтому я буду продолжать приводить примеры только из этой области), можно утверждать, что ИИ действительно на самом деле не понимает человеческий язык, поскольку он был продвинут в некоторых источниках, таких как некоторые новостные статьи в качестве примера, он понимает только некоторые аспекты корпуса, который он видел раньше, и пытается экстраполировать свое понимание на новую точку данных. Этот аргумент может показаться некоторым из вас избыточным в том смысле, что мы не должны ждать, пока ИИ даст волшебные ответы на некоторые данные, которые в любом случае сильно отличаются от обучающего набора. Я, конечно, согласен с этим, но если мы хотим продвигаться к более обширным и практичным приложениям ИИ и преуспеть в трансфертном обучении как сообщество, нам лучше иметь твердую дорожную карту, а также твердые вопросы для этой цели.

С ростом количества приложений для трансферного обучения критичность обучающих данных, особенно в области НЛП, стала горячей темой для обсуждения в последние месяцы. Вы также можете понять эту тенденцию, посмотрев на растущее число стартапов по краудсорсингу или маркировке данных, ведущих бизнес на рынке. Один очень интересный подход к этому барьеру был сформулирован в недавней статье, опубликованной в ACL 2020, в которой я нашел совершенно иную точку зрения. Хотя это исследование можно рассматривать как огромное внимание к научной философии и некоторым строго определенным терминам, таким как значение, форма и коммуникативное намерение в области лингвистики, оно представляет собой очень четкий вывод: в БЕРТологии есть свидетельства. статьи о том, что крупномасштабные LM могут изучать аспекты лингвистической формальной структуры и использовать артефакты в обучающих данных, но они не понимают, как люди общаются, или они не вспоминают фактических знаний или не понимают намерений, стоящих за вашими вопросами, как указано в статьях. Некоторые быстрые примеры сбоев (сгенерированные с помощью GPT2) в отношении этого утверждения можно найти в другом интересном блоге, где авторы предлагают идею, называемую ментальной моделью, которая имитирует то, как человеческий мозг переваривает язык в рамках протокола трансферного обучения. Идея основана на том факте, что мы можем приписывать очень разные значения предложениям и фразам в зависимости от самых разных факторов. Давайте посмотрим, например, на это очень случайное предложение: … Майкл Джордан теперь, если он получит Брайона Рассела быстрым перекрестным взглядом на то, как Брайон Рассел поскользнулся, а Майкл остановится и закроет выстрел…. Я предполагаю, что для некоторых людей уже прозвенели кольца, напоминающие финал НБА 1998 года, и даже вы не находите отклика: Брайон Рассел вместе с Майкл Джордан, переход и выстрел могут сказать вам, что это предложение неверно. фактически описывает событие, которое происходит в прошлом на стадионе, заполненном тысячами людей, в Юте или Чикаго. Несмотря на то, что модели трансферного обучения имеют некоторый уровень понимания семантики, рассматривая все предложение под разными углами, проходящими через каждое слово и шаблон, они не знают этих очевидных (для людей наверняка) деталей и связей, и вот почему ' ментальная модель »предлагает некоторые предварительные решения барьера. Тем не менее, я надеюсь разобраться в этой новой идее в другой статье.

Еще одна очень интригующая концепция, называемая стресс-тест, обсуждалась в этой статье, где идея состоит в том, чтобы применить более обширное тестирование к моделям в дополнение к стандартной валидации и наборам тестов. Я знаю, что это звучит, но мне лично понравилась идея оценить модели с точки зрения реального приложения. Я думаю, было бы здорово, если бы у нас был подробный отчет об эффективности в реальном мире по каждой модели трансфертного обучения. Эта идея звучит как очень голодная по данным, но это всего лишь идея, и я попытаюсь провести в этой статье своего рода стресс-тест, надеясь, что это будет по иронии судьбы.

Мне нравится обсуждать различные идеи, перспективы и возможные будущие последствия применения ИИ в отношении относительно более простых и удобоваримых моделей, но, вероятно, этого более чем достаточно для введения, так что давайте поговорим о модели. До этого момента я должен представить и обсудить важность обучающего набора и то, как аспекты этого основополагающего компонента создают разрыв между текущими исследованиями трансферного обучения и потенциально более широким спектром приложений. После того, как я немного прочитал и подумал о проблемах, о которых я говорил выше, я хотел провести очень быстрый стресс-тест на уровне выделения на некоторых LM (благодаря мощному HuggingFace жизнь была бы более трудоемкой, если бы использовались только Tensorflow или PyTorch), чтобы определить влияние разных обучающих наборов на одну и ту же архитектуру LM. В этой статье я пытаюсь продемонстрировать интуитивные интерпретации различий между некоторыми моделями маскированного языка (MLM), основанными на BERT, в результате разницы между их наборами тонкой настройки для разных языков. Я надеюсь закрепить масштабы эффекта обучающего набора, исследуя LM на разных языках.

Поскольку мне нужно несколько моделей BERT, которые были обучены на разных обучающих наборах, я учел разные языки. Я стремился провести стресс-тестирование этих разных LM (разных языков) с некоторыми субъективными вопросами, используя очень простые в использовании конвейеры трансформаторов. BERT был настроен для решения множества различных задач, включая, помимо прочего, прогнозирование токена маски, классификацию текста, распознавание сущности имени, а также ответы на вопросы; однако, поскольку для извлечения вопросов требуется ввод контекста, я решил выполнить аналогичную процедуру с MLM. Поэтому я сгенерировал 15 относительно коротких предложений, замаскировав один из токенов (тот, который в идеале привносит субъективность предложения), и скормил все эти замаскированные предложения в MLM на основе BERT, обученные отдельно на английском, немецком, французском и турецком языках. Я считаю, что представление кода будет лучшим способом описать этот рабочий процесс, поэтому я просто погрузлюсь в процесс, показав пакеты и предложения:

Как видите, я попытался указать более или менее субъективные или текущие вопросы для обсуждения (большинство из вышеперечисленных, если не все), на которые можно ответить одним словом. Идея состоит в том, чтобы наблюдать, как разные LM (обученные на разных лингвистических языках) предсказывают эти токены. Одно из моих первоначальных ожиданий заключалось в том, смогу ли я увидеть какие-либо культурные, привычные или связанные с обществом различия, которые отражаются через корпус обучения на выходе модели. Потому что это была бы яркая демонстрация того, как обучающий набор может повлиять на прогнозы передачи обучения. Я не уверен на 100%, добился ли я этого, но я хотел бы, чтобы вы приняли это решение и сообщили мне!

Я использовал только трансформеры для части обучения передачи, а google-translator - только для перевода предсказанных токенов на английский язык. Первый перевод был сделан на уровне предложений с использованием конвейеров-трансформеров, за исключением моего родного языка - турецкого, который мне было легче переводить вручную. Одно важное предостережение: я выполнял переводы на немецкий и французский языки с моими бывшими коллегами и друзьями Эмиром Кочером и Умутом Сойсалом и пытался свести к минимуму неправильные предсказания замаскированных токенов, вызванные переводом.

Следующий шаг - передать эти предложения в соответствующие MLM, извлечь предсказания замаскированных токенов и преобразовать их в английский язык, чтобы мы могли более легко и комплексно оценить результаты. Поскольку этот последний этап перевода находится на уровне слов, я использовал переводчик Google. Знаете, иногда вам просто нужно протестировать новый пакет, даже если он выполняет ту же работу ...

Пора друзья, перекусите, если хотите, мы перейдем к самой интересной части. Я не могу сказать, что результаты выглядят новаторскими, но скорее спорными, что мне очень нравится для дальнейшего мозгового штурма и конструктивной критики. Вот результаты и мои скромные наблюдения, пытающиеся создать историю вокруг этой странно выглядящей таблицы. Поскольку этот блог уже идет дольше, чем я ожидал, я коснусь лишь некоторых моментов. И я не забыл, вот полный код.

Токен 'здесь' появился только на французском языке для еды в строке 0, что кажется очень интересным для начала, я не смог найти быстрые данные о выделении, поэтому я не могу управлять данными здесь (позор мне), но там есть даже вопрос-кавычка: Почему французы считают, что у них лучшая кухня на планете Земля?.

Что касается Германии, если предположить, что термин Италия относится к итальянской кухне в рамках этого предложения, я обнаружил, что итальянская кухня более популярна в Германии, чем немецкая, согласно этому опросу. Вы бы сказали, что эти тенденции в обществе проецируются на трансферное обучение? Возможно, возможно, возможно ...

Единственное объяснение, которое у меня есть для слова шоколад на английском, - это значительное доминирование США в потреблении снеков согласно Statista, но это может быть слабое соотношение, так что я на самом деле просто размышляю вслух над этим…

В предложении об отпуске в строке 1 жетон здесь появился на английском, французском и турецком языках, где эти страны входят в 3 из 6 самых посещаемых мест в мире согласно Барометру мирового туризма. Это еще один ключ к разгадке вероятности того, что некоторые характерные различия стран могли быть перенесены из учебного корпуса в модельные прогнозы.

Турецкий BERT предсказал жетон доктор в строке 2, и это сразу же вызвало у меня отклик, поскольку мой опыт также подсказывает мне, что в стране существует одержимость профессией врача. И я говорю это не из головы или просто потому, что я вырос в Турции, вот опрос.

Для предложения, связанного с религией, в строке 9, плохие и опасные токены были выведены только в Германии и Франции, двух странах, которые намного ниже, чем США и Турция, в рейтинге важности религии. Еще один потенциальный поток информации, который мог перетекать из мышления общества в прогнозы машинного обучения через данные обучения и передачу обучения.

В этом итоговом фрейме данных еще многое предстоит распаковать, а также некоторые действительно странные прогнозы, которые я пока не могу объяснить. Например, желтый цвет не является самым веселым цветом только на турецком языке, Iphone - это предсказание лучшего смартфона только на немецком языке, хотя английский BERT кажется очень уверенным в победителе в холодной войне, США - не его предсказание для самая могущественная страна, и только французский LM испытывает острую ненависть к каннабису. И, конечно же, не говоря уже о некоторых предсказаниях стоп-слов для замаскированных токенов, которые, вероятно, связаны с грамматическими ошибками или ошибками перевода.

Я считаю, что мы также можем говорить о предвзятости данных по этим результатам, сравнивая различные языковые корпуса, и на самом деле предвзятость в обучающих данных - еще одна большая тема для обсуждения, но я не выхожу за рамки этого пункта и просто хочу представить эту связанную точку зрения. на ваш взгляд (не уверен, что оставлю это для другого блога, может быть…).

Вы можете придумать совершенно разные интерпретации, чем то, что я имею здесь, и, пожалуйста, имейте в виду, что я также хотел бы услышать больше. Итак, позвольте мне обобщить некоторые ключевые моменты, которые помогут в конечном итоге приземлиться в этом самолете:

НЛП - это быстро развивающаяся область искусственного интеллекта, в которую недавно были внесены значительные улучшения, поддерживающие различные приложения как на исследовательском, так и на корпоративном уровне. Тем не менее, существует большое количество преувеличений в отношении современного состояния, игнорирующего важность, зависимость и последствия выбора учебного корпуса.
Были разные идеи и дискуссии по аспектам тренировочного корпуса контролируемых усилий НЛП, таких как стресс-тесты, и мотивация, лежащая в основе этой статьи, заключалась в применении типа очень короткого стресс-теста на одной и той же архитектуре трансферного обучения, выявляющего различия, вызванные тренировочными данными. предсказания.
Я хотел показать поразительный пример трансфертного обучения, сосредоточив внимание на различиях, возникающих в результате различий в обучающих наборах. LM разных языков были отобраны и протестированы путем ввода различных субъективных замаскированных предложений.
Существует небольшая разница между токен-предсказаниями LM на разных языках для одних и тех же предложений. Мне удалось найти некоторые дополнительные данные для этих различий, но не для всех, надеясь, что те, которые представлены в этой статье, могут вызвать у вас такой вывод: Данные обучения - это то, что ограничивает эффективность и достоверность модели трансфертного обучения для широкого спектра приложений

Как я всегда говорю, пожалуйста, свяжитесь со мной в Linkedin для дальнейшего обсуждения статьи, обратная связь - это, по сути, то, как мы растем.

Толга Акинер, канд. - Специалист по данным - GSK | LinkedIn
Специалист по данным, имеющий опыт в машинном обучении, обработке естественного языка, вычислительном моделировании, алгоритмах… www.linkedin.com

Почему тренировочные данные являются узким местом для НЛП? Пример многоязычного BERT.

Трансферное обучение изменило парадигму в области НЛП, но его надежность с точки зрения более широкого круга приложений все еще ограничена.

Вопросы по теме