Знаете ли вы английскую грамматику лучше, чем ChatGPT?

Проверьте, как вы работаете с ChatGPT, DeepL, Grammarly и QuillBot.

Сложно провести всестороннее, объективное и легко проверяемое сравнение инструментов корректуры ИИ. Чтобы попытаться, я выбрал короткий, но тщательный тест на грамматику и провел его с помощью лучших средств проверки грамматики ИИ, которые смог найти.

Взгляните на эти 20 карточек (переверните карточку, чтобы увидеть правильный вариант) и проверьте, насколько ваши результаты соотносятся с самыми передовыми инструментами корректуры на основе искусственного интеллекта.

Конкуренты

Я тестировал следующие две модели от OpenAI.com:

ChatGPT, их последнее творение, может исправить грамматику, если вы напишете Исправить это на стандартный английский: и свой текст ниже;
DaVinci-003, их предыдущая модель на базе GPT3.5 (тоже очень хороша в корректуре), доступная через Игровую площадку;

Я также включил:

QuillBot, лидер моего прошлогоднего бенчмарка,
Grammarly, признанный лидер в области автоматической корректуры, как в бесплатной, так и в платной версиях,

Наконец, есть DeepL. Хотя их основным продуктом является автоматический перевод между 31 языком, у них также есть мощный модуль корректуры (в настоящее время в бета-версии).

Полученные результаты

Результаты теста сведены в таблицу ниже:

Как уже было показано в моей предыдущей статье, у ChatGPT есть трудности с есть/есть (предложение №13). Кроме этого, он работал отлично, поскольку был единственным, кто исправлял логические ошибки (№ 20) и распознавал правильное использование прогрессивного времени для временных действий или прилагательных (№ 19). Однако следует отметить, что топовые модели OpenAI заметно медленнее: ChatGPT требуется 21 секунда, а DaVinci — ~30 секунд, чтобы вычитать 20 предложений, перечисленных выше. Урезанная версия DaVinci под названием Кюри-001 работает быстрее, но набрала всего 3 балла, поэтому в таблицу я ее не включил.

Единственной парой инструментов, способных правильно различать «есть» и «это есть» (№ 13), были DeepL и Google Docs.

Удивительно, но DeepL не обнаружил проблем с №8 («Это снег»), но в целом показал себя вполне прилично. Хотя кажется, что он пропускает больше ошибок, чем ChatGPT, он работает быстрее (2,5 секунды), а его интерфейс точно настроен для корректуры: он отмечает предложения (хотя, в отличие от QuillBot, не отмечает удаления) и предоставляет альтернативные версии . Однако у него есть проблемы с ложными срабатываниями (подробности см. В разделе «Проверка грамматики и перефразирование» ниже).

Даже «предыдущая» модель OpenAI, DaVinci, сумела превзойти такие инструменты, как Grammarly и QuillBot. DaVinci имеет немного более удобный пользовательский интерфейс, чем ChatGPT для корректуры, хотя он по-прежнему не отмечает свои предложения, а только отображает исправленную версию в виде обычного текста.

Как видно из таблицы выше, бесплатная версия Grammarly серьезно урезана по сравнению с платной версией. У него приятный пользовательский интерфейс, но, как и у QuillBot, он уступает новейшим нейронным сетям, таким как DeepL и ChatGPT.

Google Docs и GrammarCheck показали себя в этом тесте на удивление хорошо, набрав по 12 баллов каждый (я не включил GrammarCheck в таблицу, потому что в предыдущих тестах он показал себя намного хуже, чем QuillBot и Grammarly, поэтому, скорее всего, этот высокий балл чистая случайность). Документы Google также были самыми быстрыми (1,5 секунды). ProWritingAid (тоже не вошедший в таблицу) набрал 6 баллов; однако у него есть много других тонкостей, которые помогают писать более продвинутыми способами, чем просто корректура.

Бесплатное использование и квоты

Большинство протестированных инструментов бесплатны для использования, но многие из них имеют довольно ограниченный объем текста, который они могут корректировать за раз, поэтому длинный текст необходимо разбить на части для проверки. Например, для DeepL это 2000 символов, а для DaVinci — около двух страниц текста (по 3000 символов на странице).

В ChatGPT нет такого строгого ограничения, но чем больше текста вы включаете в один запрос, тем больше вероятность перехода от корректуры к резюмированию. В этом отношении DaVinci лучше, чем ChatGPT: он никогда не переключается на суммирование, но его качество лишь немного уступает ChatGPT. В отличие от ChatGPT, который в настоящее время бесплатен, у DaVinci есть квота; довольно расслабленный (>2000 страниц), но он все же есть: все, что превышает квоту, требует оплаты.

Проверка грамматики против перефразирования

У QuillBot есть две отдельные страницы: «Проверка грамматики» и «Перефразирование». На странице «Проверка грамматики» он изо всех сил старается не переписывать предложения целиком и ограничивается только проблемными словами (хотя, очевидно, QuillBot с этим туго справляется и иногда перефразирует даже на «Проверке грамматики»). страницу и даже тогда, когда это не нужно).

Поведение ChatGPT зависит от конкретной формулировки подсказки:

«Исправьте это на стандартный английский». Запрос на корректуру по умолчанию старых моделей (DaVinci, Curie и т. д.) выглядит для ChatGPT слишком двусмысленно: иногда после корректуры первых пары абзацев он начинает перефразировать остальные.
«Правильная орфография и грамматика». С помощью этого приглашения ChatGPT имеет тенденцию вычитывать гораздо более длинные фрагменты текста, чем с первым, но все же прибегает к резюмированию, когда текст становится слишком большим. В отличие от первой подсказки, переход в режим суммирования легко узнаваем: он начинает возвращать один небольшой абзац вместо полного текста с исправлениями.

DeepL Write вообще не имеет параметров конфигурации. Он всегда будет предлагать сочетание исправления грамматики и перефразирования, что, по большей части, противоречит его цели в корректуре, поскольку вы не можете легко отличить настоящие ошибки от предложений синонимов.

В качестве примера рассмотрим следующий отрывок из «Хоббита» Дж.Р.Р. Толкиена, в котором я допустил одну вопиющую грамматическую ошибку. DeepL нашел в нем целую кучу из 17 ошибок (из них 16 ложных срабатываний и одна настоящая). Можете ли вы найти настоящую ошибку среди фальшивых?

Если у вас мало времени, вот вам подсказка. Это предложение с настоящей ошибкой:

Вы можете найти его сейчас?

QuillBot успешно определил ошибку. Вдобавок к этому он предложил добавить три запятые здесь и там и дал странный совет заменить «аккуратно почищенный» на «хорошо почищенный» (QuillBot лучше знает!)

ChatGPT тоже был недоволен запятыми, и тоже удачно исправил ошибку. В качестве побочного эффекта было предложено следующее подозрительное изменение:

ChatGPT знает лучше!

Google Docs не очень заботит последовательность времен, поэтому он не обнаружил никаких проблем с этим абзацем, за исключением законной рекомендации заменить британское «woolly» на американское «wooly» или переключить локаль на британскую.

Заключение

Лучшим по количеству найденных ошибок является OpenGPT, но у него есть определенные проблемы с удобством использования, когда дело доходит до корректуры:

более чем в 10 раз медленнее, чем DeepL,
не выделяет свои предложения,
не предоставляет альтернатив для определенных слов или фраз.

Функция «Запись» DeepL больше связана с перефразированием, чем с проверкой грамматики. У него недопустимое количество «ложных срабатываний» (когда он «исправляет» совершенно правильные предложения), поэтому он мало практического применения в корректуре — хотя на самом деле находит много ошибок.

QuillBot выявляет меньше ошибок, чем DeepL и ChatGPT, но по-прежнему остается одним из самых удобных инструментов, поскольку работает быстро, выделяет предлагаемые изменения, предлагает альтернативы и имеет небольшое количество «ложных срабатываний».

Какой балл вы получили на тесте? Какая нейронная сеть имеет самый близкий результат к вашему?

PS. Давайте подождем, пока Google Bard станет общедоступным, и посмотрим, работает ли он лучше, чем ChatGPT в этом тесте. Или, может быть, у кого-то уже есть к нему доступ?