В рамках моей работы мы ежегодно получаем файлы журналов объемом около 25 ТБ, в настоящее время они сохраняются в файловой системе на основе NFS. Некоторые заархивированы как zip/tar.gz, в то время как другие находятся в текстовом формате.
Я ищу альтернативы использованию системы на основе NFS. Я посмотрел MongoDB, CouchDB. Тот факт, что они являются базой данных, ориентированной на документы, кажется, делает их правильными. Однако содержимое файлов журнала необходимо изменить на JSON для сохранения в БД. Что-то я не готов делать. Мне нужно сохранить содержимое файлов журнала как есть.
Что касается использования, мы намерены добавить небольшой REST API и позволить людям получать список файлов, последние файлы и возможность получить файл.
Предлагаемые решения/идеи должны представлять собой некую форму распределенной базы данных или файловой системы на уровне приложений, где можно хранить файлы журналов и эффективно масштабировать по горизонтали за счет добавления дополнительных машин.
Анкур