Минимальное время выполнения скрипта Pig

В настоящее время я изучаю Pig и выполняю свои сценарии в песочнице Hortonworks. Что меня смущает с самого начала, так это то, что минимальное время выполнения скрипта Pig кажется не менее 30-40 секунд. Это потому, что я использую песочницу Hortonworks, или это нормально для скриптов Pig? Есть ли способ сократить время выполнения, потому что это действительно замедляет мой прогресс в обучении? Если это время выполнения нормальное, можете ли вы объяснить мне, что происходит и почему?

PS

Я выделил 2 ГБ оперативной памяти для виртуальной машины Hortonworks. И просто упомянем, что в настоящее время я выполняю простые сценарии с небольшими наборами данных.


person Anton Belev    schedule 11.11.2013    source источник


Ответы (2)


Если вы запустите pig в локальном режиме (pig -x local), то он будет работать намного быстрее, но он не будет выполнять уменьшение карты и не будет обращаться к hdfs - хотя это полезно для обучения!

person SNeumann    schedule 12.11.2013

Да, 30-40 секунд — это абсолютно нормально для Pig, потому что у него большие накладные расходы на компиляцию задания, запуск JVM и т. д. Как сказано в другом ответе — можно попробовать запустить в локальном режиме. Обычно мне требуется около 15 секунд для простого задания с вводом, содержащим всего несколько строк данных. Кстати, моей виртуальной машине Cloudera выделено 4 ГБ ОЗУ.

person Ruslan    schedule 23.11.2013