В Hadoop есть ли ограничение на размер данных, к которым можно получить доступ через knox + webhdfs?

В Hadoop есть ли ограничение на размер данных, к которым можно получить доступ / загрузить в HDFS через knox + webhdfs?


person Satheesha    schedule 22.09.2015    source источник


Ответы (2)


Теоретически ограничений нет. Однако использование Knox создает узкое место. Чистая WebHDFS перенаправляла бы запрос на чтение/запись для каждого блока на (возможно) другой узел данных, распараллеливая доступ; но с Knox все маршрутизируется через один шлюз и сериализуется.

При этом вы, вероятно, не захотите загружать огромный файл с помощью Knox и WebHDFS. Это просто займет слишком много времени (и, в зависимости от вашего клиента, вы можете получить тайм-аут).

person Hellmar Becker    schedule 22.09.2015
comment
Спасибо, Хеллмар, за ответ. Есть ли какое-либо альтернативное решение, кроме knox, которое я могу использовать для безопасного доступа к данным (не для загрузки) с помощью WebHDFS? - person Satheesha; 22.09.2015
comment
Вы можете использовать WebHDFS через HTTPS и защитить его с помощью Kerberos и SPNEGO. Недостатком является то, что вам понадобится клиент Kerberos на каждой машине, которой нужен такой доступ. - person Hellmar Becker; 22.09.2015

Apache Knox — ваш лучший вариант, когда вам нужен доступ к ресурсам webhdfs из-за пределов кластера, защищенного брандмауэрами. Если у вас нет доступа ко всем портам datanode, прямой доступ к webhdfs вам не подойдет. Открытие дыр в брандмауэре для всех этих host:ports сводит на нет цель брандмауэра, вводит кошмар управления и без необходимости передает данные о сети внешним клиентам.

Как указал Хеллмар, это зависит от ваших конкретных вариантов использования и клиентов. Если вам нужно загружать огромные файлы или большое количество файлов, вы можете рассмотреть другой подход к доступу к внутренним компонентам кластера для этих клиентов. Если вам просто нужен доступ к файлам любого размера, вы сможете расширить этот доступ для многих клиентов.

Отсутствие необходимости аутентификации с использованием Kerberos/SPNEGO для доступа к таким ресурсам открывает множество возможных клиентов, которые в противном случае были бы непригодны для использования в защищенных кластерах.

В руководстве пользователя Knox есть примеры доступа к ресурсам webhdfs — их можно найти: http://knox.apache.org/books/knox-0-7-0/user-guide.html#WebHDFS — это также иллюстрирует сценарии на основе groovy, доступные в Knox. Это позволяет делать действительно интересные вещи.

person lmccay    schedule 21.01.2016