Hadoop HDFS и файл последовательности

Мне приходит в голову еще один очень простой вопрос концептуального уровня: каковы различия и взаимосвязь между HDFS и различными форматами файлов - файлом последовательности (файл карты на его основе), файл HAR?

Я думаю, что ответ таков: HDFS — это основная файловая система, мы можем загружать необработанные двоичные файлы в HDFS (без использования файла последовательности, файла HAR и т. д.), а также мы можем использовать какой-то специальный формат файла для записи файлов на основе HDFS -- как формат файла последовательности (файл карты на его основе), формат файла HAR. Это правильное понимание?


person Lin Ma    schedule 01.12.2012    source источник


Ответы (1)


HDFS – это файловая система, которая не привязана к какому-либо конкретному формату файлов. Это распределенная файловая система, которая абстрагируется от большинства внутренних сведений о том, как файлы на самом деле сохраняются на диске (точно так же, как NFS/FAT). Это дает нам непрерывное представление о структуре файлов и каталогов, но внутри файлы фактически реплицируются и хранятся фрагментами на различных узлах кластера.

Форматы файлов, такие как файл последовательности, особенно хорошо подходят для парадигмы программирования с уменьшением карты, поскольку их можно легко разделить между узлами данных, что обеспечивает параллельную обработку. Однако у HDFS нет таких предпочтений, он может разделить любой формат файла на блоки (то есть двоичный/обычный текст) и сохранить его.

person Harshal Waghmare    schedule 01.12.2012