Извлечь текст из файлов .tex с помощью Tika

Как извлечь текст из .tex файла с помощью Apache Tika? Пример файла находится по адресу http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika может правильно определять тип контента как application/x-tex, но ничего из него не извлекает.

Я попробовал команду

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

а также следующий фрагмент кода:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

tex text-extraction apache-tika

nikhil500 15.03.2011 источник

Ответы (1)

arrow_upward
0
arrow_downward

Tika поддерживает определение расширения файла .tex, но парсера для него пока нет, извините.

Если вы можете найти хорошую библиотеку Java (в идеале с лицензией Apache) для анализа файлов .tex, я бы посоветовал вам открыть новый запрос на улучшение в Tika JIRA (https://issues.apache.org/jira/browse/TIKA ) и запросите Tex Parser на основе этой библиотеки.

Gagravarr 31.03.2011

comment

Спасибо, если найду такую библиотеку, то открою тикет. - nikhil500; 01.04.2011

Извлечь текст из файлов .tex с помощью Tika

Ответы (1)

Вопросы по теме