Было много дискуссий об определении кодировки символов текстовых файлов и веб-страниц.
Для веб-страниц кажется лучшим/простым способом использовать библиотеку, которая принимает URL-адрес в качестве входных данных и возвращает правильно закодированную строку. Поскольку библиотека извлекает документ, она может использовать заголовок HTTP, чтобы определить кодировку.
- http://htmlcleaner.sourceforge.net/download.
- Как программно загрузить веб-страницу на Java
- кодировка символов на веб-странице с использованием java
- http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html
Если мы хотим получать документы с помощью UrlFetch, в частности, с помощью асинхронного API, какой лучший подход, библиотека? для определения кодировки.
Существуют ли какие-либо библиотеки, которые интегрируются (или могут быть легко модифицированы для интеграции) с асинхронным urfetch?