В последнее время я работаю с большими наборами данных (более 400 тысяч строк). До сих пор я использовал формат XTS, который отлично работал для «небольших» наборов данных из нескольких десятых тысяч элементов.
Теперь, когда проект растет, R просто падает при извлечении данных для базы данных и помещении их в XTS.
Насколько я понимаю, R должен иметь векторы размером до 2 ^ 32-1 элемента (или 2 ^ 64-1 в зависимости от версии). Следовательно, я пришел к выводу, что у XTS могут быть некоторые ограничения, но я не смог найти ответ в документе. (возможно, я был немного самоуверен в своем понимании теоретически возможного размера вектора).
Подводя итог, я хотел бы знать, если:
- XTS действительно имеет ограничение по размеру
- Как вы думаете, какой самый разумный способ обработки больших временных рядов? (Я думал о разделении анализа на несколько небольших наборов данных).
- Я не получаю сообщения об ошибке, R просто автоматически отключается. Это известное поведение?
РЕШЕНИЕ
- То же, что и R, и это зависит от типа используемой памяти (64 бита, 32 бита). В любом случае он очень большой.
- Разделение данных действительно хорошая идея, но в этом нет необходимости.
- Эта проблема возникла из-за ошибки в R 2.11.0, которая была решена в R 2.11.1. Возникла проблема с вектором длинных дат (здесь индексы XTS).