Эта краткая статья поможет вам понять методы, используемые Microsoft для создания документов. А также в этой статье вы узнаете, как читать документы Microsoft Word с помощью библиотеки Apache POI. Я создал и поделился java-проектом на GitHub, а также поделился ссылкой для его загрузки.

Чтение и запись документов Microsoft не происходит напрямую ни с одним из доступных языков программирования. Нам нужно использовать сторонние библиотеки, такие как Interop, OpenXML, Apache POI, чтобы реализовать эту функциональность. В этой статье мы научимся читать документы Microsoft на Java, используя библиотеку Apache POI.

Файлы Microsoft Documents (DOC или DOCX) формируются на основе структуры XML. Microsoft использовала два разных формата или методологии для создания документа. До офисной версии 2007 Microsoft использовала метод Spreadsheet ML для создания офисных файлов. После версии офисного пакета 2007 года они начали использовать метод OpenXML для создания офисных файлов.

ПРИМЕЧАНИЕ. Офисные файлы означают, что доступны все типы файлов офисных пакетов. такие как docx, pptx, xlsx, visio и т. д.

Все вышеперечисленные библиотеки популярны и поддерживают практически все языки программирования. Например, мы можем использовать библиотеку Interop и OpenXML с языком программирования C#.NET для создания/чтения документов Microsoft. В этой статье мы рассмотрим только чтение файла Docx.

В библиотеке Apache POI у нас есть класс XWPFDocument, который используется для чтения файла документа. Мы собираемся использовать то же самое для чтения нашего образца документа. Класс XWPFDocument предоставляет множество способов чтения файла документа, я буду использовать метод getParagraphs для чтения всего документа.

Ниже приведен фрагмент, который считывает файл документа и печатает его содержимое в окне консоли.

FileInputStream fps = new FileInputStream(selectedFile);
XWPFDocument docu = new XWPFDocument(fps);

List‹XWPFParagraph› data = docu.getParagraphs();

for(XWPFParagraph p: данные) {
System.out.print(p.getText());
}

Ниже представлено видео на YouTube, демонстрирующее процесс чтения файла документа с нуля. Я начал с создания проекта, ссылаясь на библиотеку Apache POI, и закончил печатью содержимого файла на консоли.

Вот ссылка на Github, в которой есть весь исходный код проекта с файлами библиотеки Apache POI.

Доступно бесплатно на https://github.com/itguyofficial/DocumentReader/

Спасибо за чтение и продолжайте поддерживать нас. Я есть и в других социальных сетях, почему бы вам просто не сказать привет !!! Инстаграм| Твиттер| Фейсбук