Некоторые символы искажаются после того, как я вызываю Tidy.parse. Два примера: ' вместо ' и ∼ вместо ~
Я предполагаю, что они, должно быть, пришли из Word или чего-то подобного, но приборка очень плохо с ними справляется. В частности, он преобразует их в их индивидуальные представления сущностей для диакритических знаков, которые затем преобразуются в бессмысленный мусор позже в моем процессе. Я уверен, что есть и другие, но это те, которые я нашел до сих пор. Есть ли какой-нибудь известный способ преобразовать их заранее или игнорировать их как часть аккуратности?
Tidy tidy = new Tidy();
tidy.setXHTML(true);
tidy.setForceOutput(true);
tidy.parse(inputStream, outputStream);