Извлечение текста в Java и разработка структуры данных

У меня есть огромный набор данных таблиц в формате документа Open Office 3.0.

   Table 1:
    (x range)|(x1,y1) |(x2,y2)|(x3,x3)|(x4,y4) 
    (-20,90) |(-20,0) |(-5,1) |(5,1)  |(10,0)
    ...

Точно так же у меня есть n таблиц. Все эти таблицы являются нечеткими функциями принадлежности набора. Проще говоря, они представляют собой вычислительную модель, в соответствии с которой я должен обрабатывать входные данные. Существует много таких таблиц с разным размером строки и столбца. размер 3/4. Эти данные не изменятся после загрузки.

Пример: когда я получаю значение x в диапазоне от -20 до 90. Я применяю первое правило (приведенное выше). Предположим, что оно равно -1 (которое находится между значениями - 20 и -5). Затем мне нужно найти соответствующее значение между 0 и 1.

Мой Первый вопрос заключается в том, как извлечь все данные из таблиц в формате документа, чтобы я мог использовать их в своей Java-программе. Я немного знаком с Python и знаю, что Python может быть полезен в таких случаях. Но тогда как использовать его в моей программе Java.

Во-вторых, какую структуру данных лучше всего использовать в таком сценарии.

Примечание: я не использую базу данных. Поэтому я бы предпочел хранить таблицы либо в xml, либо в каком-либо другом формате, чтобы я мог легко загрузить их в программу. Я также думаю о создании подходящего структуру данных, а затем их сериализацию, чтобы я мог загружать их всякий раз, когда это необходимо, вместо того, чтобы анализировать файл и воссоздавать структуру данных. Пожалуйста, оставьте свои комментарии.


person Emil    schedule 19.08.2010    source источник
comment
@All - прочитайте комментарии к другим ответам, вопрос не в разборе форматированной таблицы в текстовом формате.   -  person Andreas Dolk    schedule 19.08.2010
comment
@Andreas: я упомянул об этом над таблицей. Может быть, вы пропустили это. Я выделю это для вас.   -  person Emil    schedule 19.08.2010
comment
формат документа не указывает, что у вас есть документ OpenOffice (какая версия?), который содержит данные. Таким образом, задача заключается в не анализе текста примера, а в извлечении данных из документа OpenOffice. Это было моей заботой.   -  person Andreas Dolk    schedule 19.08.2010
comment
@Andreas: Извините за недоразумение, которое я вызвал. Я отредактировал вопрос.   -  person Emil    schedule 19.08.2010


Ответы (1)


Для анализа документа OpenOffice в Java (для извлечения данных) вы можете использовать специальный API, такой как ОДФДОМ. Я думаю, что это решение очень сложное для того, что вам нужно. Более простым решением было бы вручную извлечь таблицу OpenOffice, чтобы поместить ее в формат, более удобный для анализа в Java:

  • CSV
  • База данных (MySQL и т.д.)
person Benoit Courtine    schedule 19.08.2010
comment
+1 за практический совет: скопируйте и вставьте таблицу в электронную таблицу и экспортируйте данные таблицы оттуда в csv. Делает жизнь намного проще. - person Andreas Dolk; 19.08.2010
comment
Спасибо. Это помогло, и для структуры данных я решил использовать навигационную карту. проверить stackoverflow.com/questions/3519901/ - person Emil; 19.08.2010