Извлечение charcode веб-страницы в App Engine с помощью Async UrlFetch

Было много дискуссий об определении кодировки символов текстовых файлов и веб-страниц.

Для веб-страниц кажется лучшим/простым способом использовать библиотеку, которая принимает URL-адрес в качестве входных данных и возвращает правильно закодированную строку. Поскольку библиотека извлекает документ, она может использовать заголовок HTTP, чтобы определить кодировку.

  1. http://htmlcleaner.sourceforge.net/download.
  2. Как программно загрузить веб-страницу на Java
  3. кодировка символов на веб-странице с использованием java
  4. http://docs.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html

Если мы хотим получать документы с помощью UrlFetch, в частности, с помощью асинхронного API, какой лучший подход, библиотека? для определения кодировки.

Существуют ли какие-либо библиотеки, которые интегрируются (или могут быть легко модифицированы для интеграции) с асинхронным urfetch?


person Nick Siderakis    schedule 19.04.2012    source источник


Ответы (1)


С URLFetch вы получите HTTPResponse, где вы можете использовать getHeaders(), чтобы получить список заголовков. Ищите Content-Type, для веб-страниц это должно быть что-то вроде text/html; charset=UTF-8, где charset — ваша кодировка.

person Peter Knego    schedule 19.04.2012