Откройте для себя идеальную цифровую функцию для больших языковых моделей

От ошибок к совершенству: краткий обзор возможностей распознавания текста ChatGPT

Теперь вы, вероятно, знаете, что ChatGPT — это не просто генератор текста; это многогранный инструмент, объединяющий многочисленные (и постоянно растущие) функции. Но ее скромное происхождение как «следующего слова в предсказателе текста» делает эту большую языковую модель (LLM) идеальной для того, что было Святым Граалем архивистов: коррекции текста с помощью оптического распознавания символов. Представьте себе древнюю рукопись, полную ошибок, вызванных возрастом и износом. Теперь представьте себе современную технологию, которая легко исправляет эти ошибки, сохраняя оригинальность и красоту текста. Это не отдаленное будущее — оно происходит уже сейчас с такими инструментами, как ChatGPT. И ваш текст не обязательно должен быть таким древним. В общественном достоянии находятся миллионы бесплатных оцифрованных версий текстов, которые могут извлечь выгоду из этой расширенной функциональности LLM.

Кисть с машинным обучением

Модели машинного обучения, такие как ChatGPT, обучаются на больших наборах данных, что позволяет им распознавать и исправлять ошибки OCR. Такая возможность не просто исправляет опечатки; это помогает историкам, исследователям и писателям сохранять целостность ценных текстов. Обучаясь на обширных примерах, ChatGPT воплощает в себе сочетание искусственного интеллекта и науки о данных, чтобы обогатить наше понимание письменного слова. Можно сказать, исправление текстовых ошибок в отсканированном тексте – идеальная работа для LLM!

Вот недавний пример текста из отсканированного журнала Андре Жида за 1894 год:

Приведенное выше сканирование текста вызвало множество проблем при распознавании текста (импорт необработанных данных). Еще совсем недавно на исправление этих ошибок вручную уходили часы. Вот как с помощью простой подсказки ChatGPT справился с этой задачей: