Вопросы по теме 'hadoop-partitioning'

Какая польза от компаратора группировки в карте Hadoop?
Я хотел бы знать, почему компаратор группировки используется во вторичном виде mapreduce. Согласно окончательному руководству пример вторичной сортировки Мы хотим, чтобы порядок сортировки ключей был по году (по возрастанию), а затем по...
32548 просмотров
schedule 13.08.2022

Как использовать структуру Hadoop MapReuce для приложения Opencl?
Я разрабатываю приложение в opencl, основной целью которого является реализация алгоритма интеллектуального анализа данных на платформе GPU. Я хочу использовать распределенную файловую систему Hadoop и выполнять приложение на нескольких узлах. Я...
572 просмотров

как сгруппировать данные из улья с конкретным разделом?
Имею следующее: hive>show partitions TABLENAME pt=2012.07.28.08 pt=2012.07.28.09...
5021 просмотров
schedule 24.06.2022

Разбивается в hadoop с помощью двоичного файла переменной длины/без разделителей
Я только начал работать над сборщиком данных на основе хаупа для открытых данных карты улиц. Есть несколько форматов, но я ориентировался на формат, основанный на протокольном буфере (обратите внимание, это не чистый pb). Мне кажется, что было бы...
960 просмотров

Файлы через функцию карты в карте уменьшаются
Можно ли как-то передать набор файлов через каждую функцию карты. Требование будет заключаться в параллельной обработке каждого файла для двух разных операций. Я совершенно новичок в сокращении карт и использую JAVA в качестве языка программирования.
47 просмотров
schedule 27.04.2023

Настройка производительности таблиц HIVE с использованием индекса - работает и проблемы?
У меня есть таблица кустов external abc с 3 столбцами - c1 string, c2 int, c3 string Я создал COMPACT index в столбце c1 как часть инструкции create index с отложенной перестройкой. Теперь я делаю alter index on abc with...
990 просмотров
schedule 24.08.2022

Потоковая передача Hadoop KeyFieldBasedPartitioner
Я извлекаю данные из дампа freebase (название, псевдонимы, имена типов) в avro (еще не в этой работе). Я использую потоковую передачу mapreduce с python. Этот редуктор заданий ожидает заголовок типа (который обычно является заголовком любого...
2059 просмотров

Как получить наиболее однородные результаты разделения?
Я не знаю, есть ли какой-либо алгоритм для получения оптимального раздела для раздела данных на основе ключа (необходимо обеспечить одинаковые ключевые записи в одном и том же результирующем наборе данных). Например: у меня есть набор данных,...
87 просмотров

hadoop mapreduce неупорядоченный кортеж как ключ карты
Основываясь на примере подсчета слов из Hadoop — The Definitive Guide, я разработал задание mapreduce для подсчета появления неупорядоченных кортежей строк. Ввод выглядит так (только крупнее): a b c c d d b a...
2650 просмотров

Почему в Apache Spark RDD.union не сохраняет разделитель?
Как всем известно, разделители в Spark оказывают огромное влияние на производительность любых «широких» операций, поэтому обычно они настраиваются в операциях. Я экспериментировал со следующим кодом: val rdd1 = sc.parallelize(1 to 50).keyBy(_ %...
17482 просмотров

Hive удаляет все разделы, если имя столбца раздела неверно
Я столкнулся со странной проблемой с ульем, у меня есть таблица, разделенная на основе dept_key (ее целое число, например, 3212), таблица создается следующим образом create external table dept_details (dept_key,dept_name,dept_location) PARTITIONED...
1371 просмотров
schedule 22.05.2023

Hadoop KeyComposite и Combiner
Я выполняю вторичную сортировку в Hadoop 2.6.0, я следую этому руководству: https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/ У меня точно такой же код, но сейчас я пытаюсь...
56 просмотров

Каковы преимущества увеличения размера раздела и уменьшения количества разделов в spark?
У меня есть 1 мастер и 3 слейва (по 4 ядра) По умолчанию минимальный размер раздела в моем искровом кластере составляет 32 МБ, а размер файла — 41 ГБ. Поэтому я пытаюсь уменьшить количество разделов, изменив минимальный размер на 64 МБ....
520 просмотров
schedule 17.01.2023

Восстановление Hive Partition
Как легко восстановить разделы. Вот сценарий: Есть n разделов на существующей внешней таблице t Отброшенная таблица 't' Воссозданная таблица 't' // Примечание: та же таблица, но с исключением некоторого столбца Как...
8041 просмотров
schedule 03.06.2022

Расположение раздела RDD/Dataframe
У меня есть (довольно большой, думаю, 10e7 строк) DataFrame, из которого я фильтрую элементы на основе некоторого свойства val res = data.filter(data(FieldNames.myValue) === 2).select(pk.name, FieldName.myValue) Мой DataFrame имеет n...
882 просмотров

В чем разница между Hadoop 2.7.3 и Hadoop 2.6.5?
Недавно я наткнулся на версию Hadoop, в которой я заметил, что и 2.6.5, и 2.7.3 разрабатываются параллельно и одновременно. Если возможно, кто-нибудь, пожалуйста, дайте мне разницу между ними. 08 октября 2016 г.: Доступна версия 2.6.5...
1231 просмотров

Я не могу пропинговать VIP виртуальной машины Windows Azure с моей локальной машины
Я создал виртуальную машину Windows Azure, а также установил в нее HADOOP. Теперь я хочу получить доступ к HDFS, используя URL-адрес с моей локальной машины, чтобы я мог выполнять операции чтения и записи. Пожалуйста, помогите мне выполнить эту...
643 просмотров

Копирование управляемой таблицы Hive путем копирования каталогов разделов в хранилище
У меня есть таблица с разделением, имеющая YEAR, MONTH, DAY секционирование, но я хочу добавить дополнительное секционирование по INGESTION_KEY , столбцу, которого нет в существующей таблице. Это сделано для того, чтобы в будущем можно было...
2339 просмотров
schedule 25.11.2022

Отдельный шаблон Hadoop MapReduce с пользовательским Writable создает дубликаты ключей
Я пытаюсь реализовать отдельный шаблон: map(key, record): emit record,null reduce(key, records): emit key Мой ключ сложный, пользовательский Writable . Если я испускаю в уменьшении ключ и его хэш-код: context.write(key, new...
280 просмотров
schedule 31.10.2023

Как получить недавно созданные разделы в таблице Hive?
У меня есть таблица под названием EMPLOYEE со столбцами ID, NAME, DESIGNATION, CITY, COUNTRY, CONTINENT. С 3-уровневым разделением на КОНТИНЕНТ, СТРАНА, ГОРОД. Теперь мне нужно знать недавно созданные разделы, скажем, после определенной метки...
704 просмотров