Вопросы по теме 'hadoop-partitioning'
Какая польза от компаратора группировки в карте Hadoop?
Я хотел бы знать, почему компаратор группировки используется во вторичном виде mapreduce.
Согласно окончательному руководству пример вторичной сортировки
Мы хотим, чтобы порядок сортировки ключей был по году (по возрастанию), а затем по...
32548 просмотров
schedule
13.08.2022
Как использовать структуру Hadoop MapReuce для приложения Opencl?
Я разрабатываю приложение в opencl, основной целью которого является реализация алгоритма интеллектуального анализа данных на платформе GPU. Я хочу использовать распределенную файловую систему Hadoop и выполнять приложение на нескольких узлах. Я...
572 просмотров
schedule
30.05.2022
как сгруппировать данные из улья с конкретным разделом?
Имею следующее:
hive>show partitions TABLENAME
pt=2012.07.28.08
pt=2012.07.28.09...
5021 просмотров
schedule
24.06.2022
Разбивается в hadoop с помощью двоичного файла переменной длины/без разделителей
Я только начал работать над сборщиком данных на основе хаупа для открытых данных карты улиц. Есть несколько форматов, но я ориентировался на формат, основанный на протокольном буфере (обратите внимание, это не чистый pb).
Мне кажется, что было бы...
960 просмотров
schedule
21.04.2024
Файлы через функцию карты в карте уменьшаются
Можно ли как-то передать набор файлов через каждую функцию карты. Требование будет заключаться в параллельной обработке каждого файла для двух разных операций. Я совершенно новичок в сокращении карт и использую JAVA в качестве языка программирования.
47 просмотров
schedule
27.04.2023
Настройка производительности таблиц HIVE с использованием индекса - работает и проблемы?
У меня есть таблица кустов external abc с 3 столбцами -
c1 string,
c2 int,
c3 string
Я создал COMPACT index в столбце c1 как часть инструкции create index с отложенной перестройкой.
Теперь я делаю alter index on abc with...
990 просмотров
schedule
24.08.2022
Потоковая передача Hadoop KeyFieldBasedPartitioner
Я извлекаю данные из дампа freebase (название, псевдонимы, имена типов) в avro (еще не в этой работе). Я использую потоковую передачу mapreduce с python.
Этот редуктор заданий ожидает заголовок типа (который обычно является заголовком любого...
2059 просмотров
schedule
06.05.2024
Как получить наиболее однородные результаты разделения?
Я не знаю, есть ли какой-либо алгоритм для получения оптимального раздела для раздела данных на основе ключа (необходимо обеспечить одинаковые ключевые записи в одном и том же результирующем наборе данных).
Например: у меня есть набор данных,...
87 просмотров
schedule
04.08.2022
hadoop mapreduce неупорядоченный кортеж как ключ карты
Основываясь на примере подсчета слов из Hadoop — The Definitive Guide, я разработал задание mapreduce для подсчета появления неупорядоченных кортежей строк. Ввод выглядит так (только крупнее):
a b
c c
d d
b a...
2650 просмотров
schedule
29.07.2022
Почему в Apache Spark RDD.union не сохраняет разделитель?
Как всем известно, разделители в Spark оказывают огромное влияние на производительность любых «широких» операций, поэтому обычно они настраиваются в операциях. Я экспериментировал со следующим кодом:
val rdd1 =
sc.parallelize(1 to 50).keyBy(_ %...
17482 просмотров
schedule
16.11.2022
Hive удаляет все разделы, если имя столбца раздела неверно
Я столкнулся со странной проблемой с ульем, у меня есть таблица, разделенная на основе dept_key (ее целое число, например, 3212), таблица создается следующим образом
create external table dept_details (dept_key,dept_name,dept_location) PARTITIONED...
1371 просмотров
schedule
22.05.2023
Hadoop KeyComposite и Combiner
Я выполняю вторичную сортировку в Hadoop 2.6.0, я следую этому руководству: https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/
У меня точно такой же код, но сейчас я пытаюсь...
56 просмотров
schedule
17.04.2023
Каковы преимущества увеличения размера раздела и уменьшения количества разделов в spark?
У меня есть 1 мастер и 3 слейва (по 4 ядра)
По умолчанию минимальный размер раздела в моем искровом кластере составляет 32 МБ, а размер файла — 41 ГБ. Поэтому я пытаюсь уменьшить количество разделов, изменив минимальный размер на 64 МБ....
520 просмотров
schedule
17.01.2023
Восстановление Hive Partition
Как легко восстановить разделы. Вот сценарий:
Есть n разделов на существующей внешней таблице t
Отброшенная таблица 't'
Воссозданная таблица 't' // Примечание: та же таблица, но с исключением некоторого столбца
Как...
8041 просмотров
schedule
03.06.2022
Расположение раздела RDD/Dataframe
У меня есть (довольно большой, думаю, 10e7 строк) DataFrame, из которого я фильтрую элементы на основе некоторого свойства
val res = data.filter(data(FieldNames.myValue) === 2).select(pk.name, FieldName.myValue)
Мой DataFrame имеет n...
882 просмотров
schedule
16.06.2022
В чем разница между Hadoop 2.7.3 и Hadoop 2.6.5?
Недавно я наткнулся на версию Hadoop, в которой я заметил, что и 2.6.5, и 2.7.3 разрабатываются параллельно и одновременно. Если возможно, кто-нибудь, пожалуйста, дайте мне разницу между ними.
08 октября 2016 г.: Доступна версия 2.6.5...
1231 просмотров
schedule
27.01.2023
Я не могу пропинговать VIP виртуальной машины Windows Azure с моей локальной машины
Я создал виртуальную машину Windows Azure, а также установил в нее HADOOP. Теперь я хочу получить доступ к HDFS, используя URL-адрес с моей локальной машины, чтобы я мог выполнять операции чтения и записи. Пожалуйста, помогите мне выполнить эту...
643 просмотров
schedule
09.12.2023
Копирование управляемой таблицы Hive путем копирования каталогов разделов в хранилище
У меня есть таблица с разделением, имеющая YEAR, MONTH, DAY секционирование, но я хочу добавить дополнительное секционирование по INGESTION_KEY , столбцу, которого нет в существующей таблице. Это сделано для того, чтобы в будущем можно было...
2339 просмотров
schedule
25.11.2022
Отдельный шаблон Hadoop MapReduce с пользовательским Writable создает дубликаты ключей
Я пытаюсь реализовать отдельный шаблон:
map(key, record):
emit record,null
reduce(key, records):
emit key
Мой ключ сложный, пользовательский Writable . Если я испускаю в уменьшении ключ и его хэш-код:
context.write(key, new...
280 просмотров
schedule
31.10.2023
Как получить недавно созданные разделы в таблице Hive?
У меня есть таблица под названием EMPLOYEE со столбцами ID, NAME, DESIGNATION, CITY, COUNTRY, CONTINENT. С 3-уровневым разделением на КОНТИНЕНТ, СТРАНА, ГОРОД. Теперь мне нужно знать недавно созданные разделы, скажем, после определенной метки...
704 просмотров
schedule
27.10.2022