Я ищу способ чистого преобразования HTML-таблиц в читаемый обычный текст.
т.е. при вводе:
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
Я ожидаю вывод:
Height: 200
Width: 440
Я бы предпочел не использовать внешние инструменты, например. w3m -dump file.html
, потому что они (1) зависят от платформы, (2) я хочу иметь некоторый контроль над процессом и (3) я предполагаю, что это выполнимо с одним Python с дополнительными модулями или без них.
Мне не нужен перенос слов или регулируемая ширина разделителя ячеек. Наличие табуляции в качестве разделителя ячеек было бы достаточно.
Обновлять
Это был старый вопрос для старого варианта использования. Учитывая, что pandas предоставляет метод read_html, мой текущий ответ будет определенно будет на основе панд.