Извлечь текст из файлов .tex с помощью Tika

Как извлечь текст из .tex файла с помощью Apache Tika? Пример файла находится по адресу http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika может правильно определять тип контента как application/x-tex, но ничего из него не извлекает.

Я попробовал команду

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

а также следующий фрагмент кода:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

person nikhil500    schedule 15.03.2011    source источник


Ответы (1)


Tika поддерживает определение расширения файла .tex, но парсера для него пока нет, извините.

Если вы можете найти хорошую библиотеку Java (в идеале с лицензией Apache) для анализа файлов .tex, я бы посоветовал вам открыть новый запрос на улучшение в Tika JIRA (https://issues.apache.org/jira/browse/TIKA ) и запросите Tex Parser на основе этой библиотеки.

person Gagravarr    schedule 31.03.2011
comment
Спасибо, если найду такую ​​библиотеку, то открою тикет. - person nikhil500; 01.04.2011