Итак, я видел пару руководств для этого в Интернете, но каждый, кажется, говорит, что нужно делать что-то другое. Кроме того, каждый из них, похоже, не указывает, пытаетесь ли вы заставить что-то работать на удаленном кластере или локально взаимодействовать с удаленным кластером и т. д.
Тем не менее, моя цель — просто заставить мой локальный компьютер (mac) заставить свинью работать со сжатыми файлами lzo, которые существуют в кластере Hadoop, который уже настроен для работы с файлами lzo. У меня уже установлен Hadoop локально, и я могу получать файлы из кластера с помощью hadoop fs -[command]
.
У меня также уже есть Pig, установленный локально и взаимодействующий с кластером Hadoop, когда я запускаю сценарии или когда я просто запускаю что-то через grunt. Я могу загружать и играть с файлами, отличными от lzo, просто отлично. Моя проблема заключается только в том, чтобы найти способ загрузки файлов lzo. Может быть, я могу просто обработать их через кластерный экземпляр ElephantBird? Я понятия не имею, и нашел только минимальную информацию в Интернете.
Итак, любой краткий учебник или ответ на этот вопрос был бы потрясающим и, надеюсь, помог бы большему количеству людей, чем только мне.