Разбор (очень) больших файлов XML с помощью XmlSlurper

Я новичок в Groovy, и я пытаюсь прочитать (довольно) большой файл XML (более 1 ГБ) с помощью XmlSlurper, который должен творить чудеса с большими файлами из-за того, что он не строит весь DOM в памяти.

Тем не менее, я продолжаю получать «OutOfMemoryError: пространство кучи Java», что заставляет меня думать, что, очевидно, я что-то делаю неправильно. Я попытался увеличить параметр Xmx, но предпочел бы решить проблему, поскольку впоследствии мне, возможно, придется иметь дело с еще большими файлами.

Вот строка кода, которую я использовал:

def posts = new XmlSlurper().parse(new File("posts.xml"))

Любой намек на то, что не так?

Заранее спасибо,

Джереми.

xml groovy xmlslurper

Jérémie Clos 02.04.2012 источник

comment

Этот вопрос аналогичен: stackoverflow.com/questions/4104264/ - Lari Hotari 11.02.2016

Ответы (2)

arrow_upward
8
arrow_downward

Groovy XmlSlurper — это анализатор SAX, но он загружает в память всю модель...

Чтобы избежать исключений OOM, вам, вероятно, потребуется либо увеличить объем памяти (как вы говорите, используя настройку -Xmx), либо вы можете напишите свой собственный синтаксический анализатор SAX, чтобы получить из документа только те данные, которые вам нужны

tim_yates 02.04.2012

comment

Что ж, это объясняет. Спасибо ! - Jérémie Clos; 02.04.2012

arrow_upward
4
arrow_downward

Я немного опоздал на эту вечеринку, но у меня тоже была такая же проблема.

Я сделал предложение в список рассылки groovy-user, фактически предложив добавить в XmlSlurper что-то похожее на perl-модуль XML::Twig.

def xpathSlurper = new XPathXmlSlurper2();    
def c = { twig, it ->      
    println it.text().trim();
    twig.purgeCurrent();
}
xpathSlurper.setTwigRootHandler(xpath, c);
def fdata = xpathSlurper.parse(new File("test.xml"));

Я прикрепил пример кода здесь: http://groovy.329449.n5.nabble.com/first-step-toward-Xml-Twig-for-Groovy-groovy-util-XPathXmlSlurper2-groovy-td4923577.html< /а>

Надеюсь, это поможет!

jprobichaud 05.04.2012

comment

Прямо сейчас я решил свою проблему, написав свой собственный анализатор SAX, как предложил tim_yates, но, поскольку в будущем мне придется иметь дело с аналогичными (и, возможно, большими) объемами данных, я был бы рад иметь что-то подобное. Спасибо, что указали на это! - Jérémie Clos; 12.04.2012

Вопросы по теме

Как правильно переопределить недоступный HTML-контент с помощью CSS?
Emacs тормозит и создает 0-байтовые файлы в рабочем каталоге
Скрытое переполнение элементов с переменной высотой?
отправить электронное письмо в качестве параметра в URL-адресе в ошибке Rails
Ханойские башни с использованием списков Prolog
Хранение подписей в кодировке base64 в базе данных
Редактирование CSV-файла — удаление всей строки похожих значений на основе условия VIA Powershell
Как начать новый подсчет, когда значение категориальной переменной изменилось в R
Настройте параметры прокси-сервера HTTP в инструменте командной строки Android
Разбор кода JavaScript в модуле Node.js
Почему в С++ возврат указателя частной переменной разных объектов приводит к ошибке сегментации?
Рассчитать минимальное, максимальное и среднее значение в столбце данных
Как применить несколько фильтров в таблице данных угловых материалов?
Конфигурация конкретного узла в JBoss Clustering
Подчеркивания не считываются компонентом сценария в службах интеграции Microsoft
как настроить struts2 с помощью tomcat и apache с mod_jk?
Как использовать REST API RSA Archer для получения отчета?
JMH: не учитывать время внутреннего метода
Время жизни временного объекта, связанного с константной ссылкой (цепочка методов)
фильтр сканирования по подстроке