Как извлечь текст из .tex
файла с помощью Apache Tika? Пример файла находится по адресу http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika может правильно определять тип контента как application/x-tex
, но ничего из него не извлекает.
Я попробовал команду
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
а также следующий фрагмент кода:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);