Я получаю файл mht. мне нужно извлечь текст из этого файла и продолжить некоторую бизнес-логику.
Есть ли способ извлечь текст из файла mht?
Есть ли способ конвертировать MHT в html?
Я получаю файл mht. мне нужно извлечь текст из этого файла и продолжить некоторую бизнес-логику.
Есть ли способ извлечь текст из файла mht?
Есть ли способ конвертировать MHT в html?
Поскольку MHTML — это в основном документ MIME, содержащий исходный файл HTML и все его ресурсы, вы можете использовать библиотеку MIME для извлечения различных частей. Имейте в виду, что все ссылки в html-файле внутри mht-файла могут указывать на исходное расположение встроенных файлов, и вам необходимо реконструировать эти ссылки из заголовка Content-Location частей MIME.