Как разобрать текстовые документы с рубином?

Кто-нибудь знает библиотеку, которую я могу использовать в OS X/Linux для анализа файлов Word и вывода содержимого в виде HTML?

Я посмотрел на win32ole, но, насколько я понимаю, он только для Windows, хотя могу ошибаться.

Какие-либо предложения?


person Jim Neath    schedule 17.12.2008    source источник


Ответы (1)


Формат документа Word (на данный момент игнорируя docx) ужасен и постоянно менялся. ИМХО, именно поэтому так мало (читай: ноль) библиотек Ruby для их анализа.

Я рекомендую использовать JRuby и некоторые из известных библиотек Java для чтения формата doc. Google должен вам помочь: http://schmidt.devlib.org/java/libraries-word.html.

Существует проект Java для чтения форматов файлов MIcrosoft, POI (http://poi.apache.org/) и у них есть привязки Ruby (http://poi.apache.org/poi-ruby.html), но я не уверен, насколько они актуальны. На их сайте написано, что привязки Ruby предназначены для 1.8.2...

person Chris Lloyd    schedule 17.12.2008