Публикации по тегам hadoop-partitioning

Вопросы по теме 'hadoop-partitioning'

Какая польза от компаратора группировки в карте Hadoop?

Я хотел бы знать, почему компаратор группировки используется во вторичном виде mapreduce. Согласно окончательному руководству пример вторичной сортировки Мы хотим, чтобы порядок сортировки ключей был по году (по возрастанию), а затем по...

32548 просмотров

hadoop mapreduce hadoop-partitioning

13.08.2022

Как использовать структуру Hadoop MapReuce для приложения Opencl?

Я разрабатываю приложение в opencl, основной целью которого является реализация алгоритма интеллектуального анализа данных на платформе GPU. Я хочу использовать распределенную файловую систему Hadoop и выполнять приложение на нескольких узлах. Я...

572 просмотров

gpu hadoop mapreduce hadoop-partitioning opencl

30.05.2022

как сгруппировать данные из улья с конкретным разделом?

Имею следующее: hive>show partitions TABLENAME pt=2012.07.28.08 pt=2012.07.28.09...

5021 просмотров

hive hiveql hadoop-partitioning

24.06.2022

Разбивается в hadoop с помощью двоичного файла переменной длины/без разделителей

Я только начал работать над сборщиком данных на основе хаупа для открытых данных карты улиц. Есть несколько форматов, но я ориентировался на формат, основанный на протокольном буфере (обратите внимание, это не чистый pb). Мне кажется, что было бы...

960 просмотров

hadoop hadoop-partitioning openstreetmap gis

21.04.2024

Файлы через функцию карты в карте уменьшаются

Можно ли как-то передать набор файлов через каждую функцию карты. Требование будет заключаться в параллельной обработке каждого файла для двух разных операций. Я совершенно новичок в сокращении карт и использую JAVA в качестве языка программирования.

47 просмотров

hadoop mapreduce hadoop-partitioning

27.04.2023

Настройка производительности таблиц HIVE с использованием индекса - работает и проблемы?

У меня есть таблица кустов external abc с 3 столбцами - c1 string, c2 int, c3 string Я создал COMPACT index в столбце c1 как часть инструкции create index с отложенной перестройкой. Теперь я делаю alter index on abc with...

990 просмотров

hadoop hive hiveql hadoop-partitioning

24.08.2022

Потоковая передача Hadoop KeyFieldBasedPartitioner

Я извлекаю данные из дампа freebase (название, псевдонимы, имена типов) в avro (еще не в этой работе). Я использую потоковую передачу mapreduce с python. Этот редуктор заданий ожидает заголовок типа (который обычно является заголовком любого...

2059 просмотров

hadoop hadoop-partitioning hadoop-streaming

06.05.2024

Как получить наиболее однородные результаты разделения?

Я не знаю, есть ли какой-либо алгоритм для получения оптимального раздела для раздела данных на основе ключа (необходимо обеспечить одинаковые ключевые записи в одном и том же результирующем наборе данных). Например: у меня есть набор данных,...

87 просмотров

hadoop partition partitioning hadoop-partitioning data-partitioning

04.08.2022

hadoop mapreduce неупорядоченный кортеж как ключ карты

Основываясь на примере подсчета слов из Hadoop — The Definitive Guide, я разработал задание mapreduce для подсчета появления неупорядоченных кортежей строк. Ввод выглядит так (только крупнее): a b c c d d b a...

2650 просмотров

java hadoop mapreduce hadoop-partitioning hadoop2

29.07.2022

Почему в Apache Spark RDD.union не сохраняет разделитель?

Как всем известно, разделители в Spark оказывают огромное влияние на производительность любых «широких» операций, поэтому обычно они настраиваются в операциях. Я экспериментировал со следующим кодом: val rdd1 = sc.parallelize(1 to 50).keyBy(_ %...

17482 просмотров

apache-spark partitioning hadoop-partitioning

16.11.2022

Hive удаляет все разделы, если имя столбца раздела неверно

Я столкнулся со странной проблемой с ульем, у меня есть таблица, разделенная на основе dept_key (ее целое число, например, 3212), таблица создается следующим образом create external table dept_details (dept_key,dept_name,dept_location) PARTITIONED...

1371 просмотров

hadoop hive hiveql hadoop-partitioning

22.05.2023

Hadoop KeyComposite и Combiner

Я выполняю вторичную сортировку в Hadoop 2.6.0, я следую этому руководству: https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/ У меня точно такой же код, но сейчас я пытаюсь...

56 просмотров

hadoop hadoop-partitioning hadoop2 hadoop-plugins hadoop-streaming

17.04.2023

Каковы преимущества увеличения размера раздела и уменьшения количества разделов в spark?

У меня есть 1 мастер и 3 слейва (по 4 ядра) По умолчанию минимальный размер раздела в моем искровом кластере составляет 32 МБ, а размер файла — 41 ГБ. Поэтому я пытаюсь уменьшить количество разделов, изменив минимальный размер на 64 МБ....

520 просмотров

apache-spark scala hadoop-partitioning

17.01.2023

Восстановление Hive Partition

Как легко восстановить разделы. Вот сценарий: Есть n разделов на существующей внешней таблице t Отброшенная таблица 't' Воссозданная таблица 't' // Примечание: та же таблица, но с исключением некоторого столбца Как...

8041 просмотров

hdfs hive hadoop-partitioning hql

03.06.2022

Расположение раздела RDD/Dataframe

У меня есть (довольно большой, думаю, 10e7 строк) DataFrame, из которого я фильтрую элементы на основе некоторого свойства val res = data.filter(data(FieldNames.myValue) === 2).select(pk.name, FieldName.myValue) Мой DataFrame имеет n...

882 просмотров

apache-spark apache-spark-sql rdd hadoop-partitioning spark-dataframe

16.06.2022

В чем разница между Hadoop 2.7.3 и Hadoop 2.6.5?

Недавно я наткнулся на версию Hadoop, в которой я заметил, что и 2.6.5, и 2.7.3 разрабатываются параллельно и одновременно. Если возможно, кто-нибудь, пожалуйста, дайте мне разницу между ними. 08 октября 2016 г.: Доступна версия 2.6.5...

1231 просмотров

hadoop hadoop-partitioning cloudera-cdh hadoop2 hadoop-streaming

27.01.2023

Я не могу пропинговать VIP виртуальной машины Windows Azure с моей локальной машины

Я создал виртуальную машину Windows Azure, а также установил в нее HADOOP. Теперь я хочу получить доступ к HDFS, используя URL-адрес с моей локальной машины, чтобы я мог выполнять операции чтения и записи. Пожалуйста, помогите мне выполнить эту...

643 просмотров

azure windows azure-virtual-machine hadoop hadoop-partitioning

09.12.2023

Копирование управляемой таблицы Hive путем копирования каталогов разделов в хранилище

У меня есть таблица с разделением, имеющая YEAR, MONTH, DAY секционирование, но я хочу добавить дополнительное секционирование по INGESTION_KEY , столбцу, которого нет в существующей таблице. Это сделано для того, чтобы в будущем можно было...

2339 просмотров

hadoop hdfs hive hadoop-partitioning hql

25.11.2022

Отдельный шаблон Hadoop MapReduce с пользовательским Writable создает дубликаты ключей

Я пытаюсь реализовать отдельный шаблон: map(key, record): emit record,null reduce(key, records): emit key Мой ключ сложный, пользовательский Writable . Если я испускаю в уменьшении ключ и его хэш-код: context.write(key, new...

280 просмотров

hadoop mapreduce hadoop-partitioning

31.10.2023

Как получить недавно созданные разделы в таблице Hive?

У меня есть таблица под названием EMPLOYEE со столбцами ID, NAME, DESIGNATION, CITY, COUNTRY, CONTINENT. С 3-уровневым разделением на КОНТИНЕНТ, СТРАНА, ГОРОД. Теперь мне нужно знать недавно созданные разделы, скажем, после определенной метки...

704 просмотров

hadoop hive hive-metastore hadoop-partitioning pyhive

27.10.2022