Мне нужно извлечь данные из таблиц аналогичного формата из этого файла. Есть некоторые ошибки распознавания текста, но у меня есть автоматизированный метод их исправления.
Я пытался:
- Обнаружение таблиц ABBYY Finereader.
- Извлечение таблицы tabula
- Извлечение стола Камелот
- Пользовательский код python
Проблема: рекламные инструменты очень плохо распознают края стола. Таблицы следуют одинаковому общему формату, но каждое сканирование выровнено немного по-разному, поэтому жесткое кодирование границ тоже не сработает.
Вопрос: Ребята, знаете ли вы, как хорошо определить, где начинается таблица, и затем применить один из нескольких шаблонов?
Мы будем благодарны за любые другие советы для такого рода работы.