Вопросы по теме 'apache-pig'

Использование улья со свиньей
Мой запрос куста имеет несколько внешних объединений и занимает очень много времени для выполнения. Мне было интересно, имеет ли смысл разбить его на несколько более мелких запросов и использовать свинью для выполнения преобразований. Есть ли...
3673 просмотров
schedule 14.09.2022

Hadoop Pig: передача аргументов командной строки
Есть ли способ сделать это? например, передать имя обрабатываемого файла и т. д.?
35188 просмотров
schedule 06.01.2024

Тонкая настройка PIG для локального выполнения
Я использую латиницу PIG для обработки логов из-за ее выразительности в задаче, где данные недостаточно велики, чтобы беспокоиться о настройке всего кластера hadoop. Я запускаю PIG в локальном режиме, но я думаю, что он не использует все доступные...
1343 просмотров
schedule 19.03.2024

Импорт многоуровневых каталогов журналов в hadoop/pig
Мы храним наши журналы в S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов в зависимости от типа/даты. Например:...
1494 просмотров
schedule 15.04.2022

Вывод Hadoop PIG не разбивается на несколько файлов с помощью оператора PARALLEL
Похоже, я что-то упускаю. Количество редукторов для моих данных создает такое количество файлов в HDFS, но мои данные не разбиваются на несколько файлов. Что я заметил, так это то, что если я делаю group by для ключа, который находится в...
2008 просмотров

POST Hadoop Pig выводит URL-адрес в виде данных JSON?
У меня есть задание Pig, которое анализирует файлы журналов и записывает сводные данные в S3. Вместо того, чтобы записывать вывод в S3, я хочу преобразовать его в полезную нагрузку JSON и отправить в URL-адрес. Некоторые примечания: Это...
1048 просмотров
schedule 24.08.2022

Свинья: изменение формата ИМЯ выходного файла
Я использую эластичный конвейер mapreduce, который использует выходные данные нескольких сценариев свиньи. По сути, выходные данные сценария свиньи хранятся в определенном месте на S3, и, поскольку размер данных огромен, созданные выходные файлы...
2112 просмотров
schedule 21.12.2022

Использовать Hadoop Pig для загрузки данных из текстового файла с каждой записью в несколько строк?
У меня есть файл данных в следующем формате: U: john T: 2011-03-03 12:12:12 L: san diego, CA U: john T: 2011-03-03 12:12:12 L: san diego, CA Как лучше всего прочитать этот файл с помощью Hadoop/pig/что угодно для анализа?
1475 просмотров
schedule 16.09.2023

команда свиньи апача
просто интересно, что означает следующая команда? так тяжело гуглить темы, связанные со свиньями: pig -Dpig.usenewlogicalplan=false я запустил скрипт свиньи в режиме карты/уменьшения, он потерпел неудачу, добавив этот флаг (-D), он сработал,...
454 просмотров
schedule 17.01.2023

Использование предложения IN с PIG FILTER
Поддерживает ли PIG предложение IN? filtered = FILTER bba BY reason not in ('a','b','c','d'); или я должен разделить его на несколько ИЛИ? Спасибо!
20793 просмотров
schedule 13.04.2022

Как заставить Pig работать с файлами lzo?
Итак, я видел пару руководств для этого в Интернете, но каждый, кажется, говорит, что нужно делать что-то другое. Кроме того, каждый из них, похоже, не указывает, пытаетесь ли вы заставить что-то работать на удаленном кластере или локально...
5068 просмотров
schedule 02.05.2024

Можно ли перекрестно соединить строку в отношении с кортежем в этой строке в Pig?
У меня есть набор данных, который показывает пользователей, коллекции фруктов, которые им нравятся, и родной город: Alice\tApple:Orange\tSacramento Bob\tApple\tSan Diego Charlie\tApple:Pineapple\tSacramento Я хотел бы создать запрос свиньи,...
957 просмотров
schedule 06.05.2024

Свинья: вытягивание отдельных полей после GROUP
В PigLatin я хочу вытащить другие поля из записи, которую я хочу выбрать, из-за агрегата, такого как MAX . У меня возникли проблемы с объяснением проблемы, поэтому вот пример. Допустим, я хочу получить имя самого старого человека в домашнем...
7504 просмотров
schedule 07.10.2022

Как скомпилировать UDF в дистрибутиве Cloudera Hadoop+Pig
Я использую виртуальную машину Cloudera (CH3). Я скопировал простую пользовательскую функцию в своем текстовом редакторе, но не знаю, как ее скомпилировать, чтобы иметь возможность вызывать ее в сценарии. Руководство по Pig UDF...
566 просмотров

Преобразование предложения в свиную латынь в C++
Я новичок, и я не могу найти эффективный или не слишком сложный способ заставить эту программу работать. Мне нужно взять предложение в виде массива (через cin.getline) и написать функцию, которая преобразует его в поросячью латынь во втором...
1578 просмотров
schedule 20.09.2023

Использование корреляции Hadoop Pig
У меня есть список векторов, с которыми я хочу провести корреляцию через входной вектор (числа). Как я должен хранить свой список векторов и как передать свой входной вектор и передать его Функция COR() свиньи ? -- SET command? what is it used...
1500 просмотров
schedule 05.12.2022

Место вывода неагрегированных предупреждений свиньи?
Pig: 0.8.1-cdh3u2 Hadoop: 0.20.2-cdh3u0 Отладка FIELD_DISCARDED_TYPE_CONVERSION_FAILED предупреждений, но я не могу нигде распечатать отдельные предупреждения. Отключение агрегации с помощью переключателя -w или aggregate.warnings=false...
889 просмотров
schedule 02.04.2023

Apache Pig, проблема с запуском программы
REGISTER /home/hadoop/pigg/trunk/contrib/piggybank/java/piggybank.jar; -- Use the PigStorage function to load the excite log file into the raw bag as an array of records. -- Input: (user,time,query) A = LOAD 'hadoop-test-data.csv' USING...
629 просмотров
schedule 10.11.2022

Недостаточно памяти для редуктора
Итак, у меня есть несколько сценариев Pig, которые продолжают умирать, сокращая фазу задания с ошибками, из-за которых в куче Java не хватает места. На сегодняшний день моим единственным решением было увеличить количество редукторов, но это, похоже,...
8864 просмотров
schedule 05.08.2022

Как обеспечить соблюдение правильных типов данных в Apache Pig?
У меня возникли проблемы с суммированием пакета значений из-за ошибки типа данных. Когда я загружаю CSV-файл, строки которого выглядят так: 6 574 false 10.1.72.23 2010-05-16 13:56:19 +0930 fbcdn.net static.ak.fbcdn.net 304 text/css...
9784 просмотров
schedule 15.07.2023