Вопросы по теме 'apache-pig'
Использование улья со свиньей
Мой запрос куста имеет несколько внешних объединений и занимает очень много времени для выполнения. Мне было интересно, имеет ли смысл разбить его на несколько более мелких запросов и использовать свинью для выполнения преобразований.
Есть ли...
3673 просмотров
schedule
14.09.2022
Hadoop Pig: передача аргументов командной строки
Есть ли способ сделать это? например, передать имя обрабатываемого файла и т. д.?
35188 просмотров
schedule
06.01.2024
Тонкая настройка PIG для локального выполнения
Я использую латиницу PIG для обработки логов из-за ее выразительности в задаче, где данные недостаточно велики, чтобы беспокоиться о настройке всего кластера hadoop. Я запускаю PIG в локальном режиме, но я думаю, что он не использует все доступные...
1343 просмотров
schedule
19.03.2024
Импорт многоуровневых каталогов журналов в hadoop/pig
Мы храним наши журналы в S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов в зависимости от типа/даты. Например:...
1494 просмотров
schedule
15.04.2022
Вывод Hadoop PIG не разбивается на несколько файлов с помощью оператора PARALLEL
Похоже, я что-то упускаю. Количество редукторов для моих данных создает такое количество файлов в HDFS, но мои данные не разбиваются на несколько файлов. Что я заметил, так это то, что если я делаю group by для ключа, который находится в...
2008 просмотров
schedule
28.02.2023
POST Hadoop Pig выводит URL-адрес в виде данных JSON?
У меня есть задание Pig, которое анализирует файлы журналов и записывает сводные данные в S3. Вместо того, чтобы записывать вывод в S3, я хочу преобразовать его в полезную нагрузку JSON и отправить в URL-адрес.
Некоторые примечания:
Это...
1048 просмотров
schedule
24.08.2022
Свинья: изменение формата ИМЯ выходного файла
Я использую эластичный конвейер mapreduce, который использует выходные данные нескольких сценариев свиньи. По сути, выходные данные сценария свиньи хранятся в определенном месте на S3, и, поскольку размер данных огромен, созданные выходные файлы...
2112 просмотров
schedule
21.12.2022
Использовать Hadoop Pig для загрузки данных из текстового файла с каждой записью в несколько строк?
У меня есть файл данных в следующем формате:
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
Как лучше всего прочитать этот файл с помощью Hadoop/pig/что угодно для анализа?
1475 просмотров
schedule
16.09.2023
команда свиньи апача
просто интересно, что означает следующая команда? так тяжело гуглить темы, связанные со свиньями:
pig -Dpig.usenewlogicalplan=false
я запустил скрипт свиньи в режиме карты/уменьшения, он потерпел неудачу, добавив этот флаг (-D), он сработал,...
454 просмотров
schedule
17.01.2023
Использование предложения IN с PIG FILTER
Поддерживает ли PIG предложение IN?
filtered = FILTER bba BY reason not in ('a','b','c','d');
или я должен разделить его на несколько ИЛИ?
Спасибо!
20793 просмотров
schedule
13.04.2022
Как заставить Pig работать с файлами lzo?
Итак, я видел пару руководств для этого в Интернете, но каждый, кажется, говорит, что нужно делать что-то другое. Кроме того, каждый из них, похоже, не указывает, пытаетесь ли вы заставить что-то работать на удаленном кластере или локально...
5068 просмотров
schedule
02.05.2024
Можно ли перекрестно соединить строку в отношении с кортежем в этой строке в Pig?
У меня есть набор данных, который показывает пользователей, коллекции фруктов, которые им нравятся, и родной город:
Alice\tApple:Orange\tSacramento
Bob\tApple\tSan Diego
Charlie\tApple:Pineapple\tSacramento
Я хотел бы создать запрос свиньи,...
957 просмотров
schedule
06.05.2024
Свинья: вытягивание отдельных полей после GROUP
В PigLatin я хочу вытащить другие поля из записи, которую я хочу выбрать, из-за агрегата, такого как MAX .
У меня возникли проблемы с объяснением проблемы, поэтому вот пример. Допустим, я хочу получить имя самого старого человека в домашнем...
7504 просмотров
schedule
07.10.2022
Как скомпилировать UDF в дистрибутиве Cloudera Hadoop+Pig
Я использую виртуальную машину Cloudera (CH3). Я скопировал простую пользовательскую функцию в своем текстовом редакторе, но не знаю, как ее скомпилировать, чтобы иметь возможность вызывать ее в сценарии. Руководство по Pig UDF...
566 просмотров
schedule
14.07.2022
Преобразование предложения в свиную латынь в C++
Я новичок, и я не могу найти эффективный или не слишком сложный способ заставить эту программу работать.
Мне нужно взять предложение в виде массива (через cin.getline) и написать функцию, которая преобразует его в поросячью латынь во втором...
1578 просмотров
schedule
20.09.2023
Использование корреляции Hadoop Pig
У меня есть список векторов, с которыми я хочу провести корреляцию через входной вектор (числа). Как я должен хранить свой список векторов и как передать свой входной вектор и передать его Функция COR() свиньи ?
-- SET command? what is it used...
1500 просмотров
schedule
05.12.2022
Место вывода неагрегированных предупреждений свиньи?
Pig: 0.8.1-cdh3u2
Hadoop: 0.20.2-cdh3u0
Отладка FIELD_DISCARDED_TYPE_CONVERSION_FAILED предупреждений, но я не могу нигде распечатать отдельные предупреждения. Отключение агрегации с помощью переключателя -w или aggregate.warnings=false...
889 просмотров
schedule
02.04.2023
Apache Pig, проблема с запуском программы
REGISTER /home/hadoop/pigg/trunk/contrib/piggybank/java/piggybank.jar;
-- Use the PigStorage function to load the excite log file into the raw bag as an array of records.
-- Input: (user,time,query)
A = LOAD 'hadoop-test-data.csv' USING...
629 просмотров
schedule
10.11.2022
Недостаточно памяти для редуктора
Итак, у меня есть несколько сценариев Pig, которые продолжают умирать, сокращая фазу задания с ошибками, из-за которых в куче Java не хватает места. На сегодняшний день моим единственным решением было увеличить количество редукторов, но это, похоже,...
8864 просмотров
schedule
05.08.2022
Как обеспечить соблюдение правильных типов данных в Apache Pig?
У меня возникли проблемы с суммированием пакета значений из-за ошибки типа данных.
Когда я загружаю CSV-файл, строки которого выглядят так:
6 574 false 10.1.72.23 2010-05-16 13:56:19 +0930 fbcdn.net static.ak.fbcdn.net 304 text/css...
9784 просмотров
schedule
15.07.2023