Вопросы по теме 'rdd'

Многократная запись в распределенную файловую систему hadoop с помощью Spark
Я создал искровое задание, которое каждый день читает текстовый файл с моей hdfs и извлекает уникальные ключи из каждой строки текстового файла. В каждом текстовом файле примерно 50000 ключей. Затем те же данные фильтруются по извлеченному ключу и...
5361 просмотров
schedule 23.02.2022

как сохранить вывод схемы apache spark в базе данных mysql
Может ли кто-нибудь сказать мне, есть ли способ в apache Spark хранить JavaRDD в базе данных mysql? Я беру входные данные из 2 файлов CSV, а затем после выполнения операций соединения с их содержимым мне нужно сохранить выходные данные (выходные...
4802 просмотров
schedule 04.11.2022

Параллельная обработка столбцов Spark
Я играл со Spark, и мне удалось заставить его обрабатывать мои данные. Мои данные состоят из плоского текстового файла с разделителями, состоящего из 50 столбцов и около 20 миллионов строк. У меня есть скрипты scala, которые будут обрабатывать...
3248 просмотров
schedule 15.04.2023

Как удалить повторяющиеся значения из RDD[PYSPARK]
У меня есть следующая таблица в качестве RDD: Key Value 1 y 1 y 1 y 1 n 1 n 2 y 2 n 2 n Я хочу удалить все дубликаты из Value . Вывод должен быть таким: Key Value 1 y 1 n 2 y 2 n При работе в...
25567 просмотров
schedule 27.01.2023

Как отфильтровать RDD в соответствии с функцией, основанной на другом RDD в Spark?
Я новичок в Apache Spark. Я хочу отфильтровать все группы, сумма весов которых больше постоянного значения в RDD. Карта «веса» также является RDD. Вот небольшая демонстрация, группы для фильтрации хранятся в «группах», постоянное значение равно 12:...
24245 просмотров
schedule 30.04.2024

Hadoop Spark: как выделить элементы в JavaRDD?
Я хочу сохранить отдельные коллекции JavaRDD в файл в Spark? Я не смог добиться того же, используя метод RDD Different(). Я предполагаю, что RDD рассматривает каждый элемент как отдельный экземпляр. Как мы можем достичь отчетливого в этом...
5823 просмотров
schedule 05.11.2022

Spark NullPointerException внутри цикла foreach
У меня есть RDD, и я хочу перебрать его. Мне нравится это: pointsMap.foreach({ p => val pointsWithCoordinatesWithDistance = pointsMap.leftOuterJoin(xCoordinatesWithDistance) pointsWithCoordinatesWithDistance.foreach(println)...
1589 просмотров

добавление в преобразование искровой карты
У меня есть такой текстовый файл: 1,abc 34,bvc 98,def 43,mnl 12,xyz 54,hij val rddtemp= sc.textFile("/tmp/tabletest.txt") val maprdd = rddtemp.map(x=> (x.split(",")(0)+ 3, x.split(",")(1) )).foreach(println)...
46 просмотров
schedule 06.04.2023

Как скопировать ключ предыдущей строки в ключевое поле следующей строки в RDD пары ключ-значение
Пример набора данных: $, Claw "OnCreativity" (2012) [Himself] $, Homo Nykytaiteen museo (1986) [Himself] <25> Suuri illusioni (1985) [Guests] <22> $, Steve E.R. Sluts (2003) (V) <12>...
197 просмотров
schedule 17.09.2022

Нормализация слов с помощью RDD
Может быть, этот вопрос немного странный... Но я попробую его задать. Все, кто писал приложения с использованием Lucene API, видели что-то подобное: public static String removeStopWordsAndGetNorm(String text, String[] stopWords, Normalizer...
978 просмотров
schedule 11.06.2023

Превратите пару ключ-значение в пару списка ключей с помощью Apache Spark
Я пишу приложение Spark и хочу объединить набор пар "ключ-значение" (K, V1), (K, V2), ..., (K, Vn) в одну пару "ключ-многозначность" (K, [V1, V2, ..., Vn]) . Я чувствую, что смогу сделать это, используя функцию reduceByKey с некоторым привкусом:...
100861 просмотров
schedule 24.09.2022

NoSuchMethodError в приложениях Spark
Я запустил приложение на Spark cluster , но оно выдало мне error вот так: 14/11/20 21:59:08 WARN TaskSetManager: Lost task 11.0 in stage 0.0 (TID 64, spark1): java.lang.NoSuchMethodError:...
2684 просмотров
schedule 26.11.2022

Преобразование столбца из schemaRDD в массив строк
Я пытаюсь преобразовать столбец, представляющий собой массив строк, в строку путем объединения его значений, но почему-то не могу связать этот конкретный столбец с массивом строк: val converted = jsonFiles.map(line=>...
720 просмотров
schedule 29.02.2024

Обновить схему запросаRDD
Я использую schemaRDD в scala для некоторых преобразований данных. При использовании запроса на обновление точно так же, как контекст SQL, как в этом примере UPDATE users SET email = '[email protected]' WHERE ID = 1 , я получаю следующую ошибку:...
371 просмотров
schedule 12.04.2023

Соедините два обычных RDD с/без Spark SQL
Мне нужно объединить два обычных RDDs в один или несколько столбцов. Логически эта операция эквивалентна операции соединения двух таблиц с базой данных. Интересно, это возможно только через Spark SQL или есть другие способы сделать это. В...
75783 просмотров

Можно ли использовать reduceBykey для изменения типа и объединения значений — Scala Spark?
В коде ниже я пытаюсь объединить значения: val rdd: org.apache.spark.rdd.RDD[((String), Double)] = sc.parallelize(List( (("a"), 1.0), (("a"), 3.0), (("a"), 2.0) )) val reduceByKey = rdd.reduceByKey((a , b) =>...
3974 просмотров
schedule 17.12.2023

Spark: как преобразовать последовательность RDD в RDD
Я только начинаю в Spark & ​​Scala У меня есть каталог с несколькими файлами, я успешно загружаю их, используя sc.wholeTextFiles(directory) Теперь я хочу подняться на один уровень выше. На самом деле у меня есть каталог, содержащий...
5836 просмотров
schedule 28.06.2023

Как дублировать RDD на несколько RDD?
Можно ли дублировать RDD на два или несколько RDD? Я хочу использовать драйвер cassandra-spark и сохранить RDD в таблицу Cassandra и, кроме того, продолжить вычисления (и в конечном итоге также сохранить результат в Cassandra).
3471 просмотров
schedule 24.08.2023

Как преобразовать RDD[(Key, Value)] в Map[Key, RDD[Value]]
Я долго искал решение, но не нашел правильного алгоритма. Используя Spark RDD в scala, как я могу преобразовать RDD[(Key, Value)] в Map[key, RDD[Value]] , зная, что я не могу использовать сбор или другие методы, которые могут загружать данные в...
8037 просмотров
schedule 01.11.2022

Как использовать saveTOCassandra()
Я новичок в искре. Я хочу сохранить данные искры в cassandra с условием, что у меня есть RDD, и я хочу сохранить данные этого RDD в еще одну таблицу в cassandra? Возможно ли это, если да, то как?
8603 просмотров