Вопросы по теме 'rdd'
Многократная запись в распределенную файловую систему hadoop с помощью Spark
Я создал искровое задание, которое каждый день читает текстовый файл с моей hdfs и извлекает уникальные ключи из каждой строки текстового файла. В каждом текстовом файле примерно 50000 ключей. Затем те же данные фильтруются по извлеченному ключу и...
5361 просмотров
schedule
23.02.2022
как сохранить вывод схемы apache spark в базе данных mysql
Может ли кто-нибудь сказать мне, есть ли способ в apache Spark хранить JavaRDD в базе данных mysql? Я беру входные данные из 2 файлов CSV, а затем после выполнения операций соединения с их содержимым мне нужно сохранить выходные данные (выходные...
4802 просмотров
schedule
04.11.2022
Параллельная обработка столбцов Spark
Я играл со Spark, и мне удалось заставить его обрабатывать мои данные. Мои данные состоят из плоского текстового файла с разделителями, состоящего из 50 столбцов и около 20 миллионов строк. У меня есть скрипты scala, которые будут обрабатывать...
3248 просмотров
schedule
15.04.2023
Как удалить повторяющиеся значения из RDD[PYSPARK]
У меня есть следующая таблица в качестве RDD:
Key Value
1 y
1 y
1 y
1 n
1 n
2 y
2 n
2 n
Я хочу удалить все дубликаты из Value .
Вывод должен быть таким:
Key Value
1 y
1 n
2 y
2 n
При работе в...
25567 просмотров
schedule
27.01.2023
Как отфильтровать RDD в соответствии с функцией, основанной на другом RDD в Spark?
Я новичок в Apache Spark. Я хочу отфильтровать все группы, сумма весов которых больше постоянного значения в RDD. Карта «веса» также является RDD. Вот небольшая демонстрация, группы для фильтрации хранятся в «группах», постоянное значение равно 12:...
24245 просмотров
schedule
30.04.2024
Hadoop Spark: как выделить элементы в JavaRDD?
Я хочу сохранить отдельные коллекции JavaRDD в файл в Spark?
Я не смог добиться того же, используя метод RDD Different().
Я предполагаю, что RDD рассматривает каждый элемент как отдельный экземпляр. Как мы можем достичь отчетливого в этом...
5823 просмотров
schedule
05.11.2022
Spark NullPointerException внутри цикла foreach
У меня есть RDD, и я хочу перебрать его. Мне нравится это:
pointsMap.foreach({ p =>
val pointsWithCoordinatesWithDistance = pointsMap.leftOuterJoin(xCoordinatesWithDistance)
pointsWithCoordinatesWithDistance.foreach(println)...
1589 просмотров
schedule
30.01.2024
добавление в преобразование искровой карты
У меня есть такой текстовый файл:
1,abc
34,bvc
98,def
43,mnl
12,xyz
54,hij
val rddtemp= sc.textFile("/tmp/tabletest.txt")
val maprdd = rddtemp.map(x=> (x.split(",")(0)+ 3, x.split(",")(1) )).foreach(println)...
46 просмотров
schedule
06.04.2023
Как скопировать ключ предыдущей строки в ключевое поле следующей строки в RDD пары ключ-значение
Пример набора данных:
$, Claw "OnCreativity" (2012) [Himself]
$, Homo Nykytaiteen museo (1986) [Himself] <25>
Suuri illusioni (1985) [Guests] <22>
$, Steve E.R. Sluts (2003) (V) <12>...
197 просмотров
schedule
17.09.2022
Нормализация слов с помощью RDD
Может быть, этот вопрос немного странный... Но я попробую его задать.
Все, кто писал приложения с использованием Lucene API, видели что-то подобное:
public static String removeStopWordsAndGetNorm(String text, String[] stopWords, Normalizer...
978 просмотров
schedule
11.06.2023
Превратите пару ключ-значение в пару списка ключей с помощью Apache Spark
Я пишу приложение Spark и хочу объединить набор пар "ключ-значение" (K, V1), (K, V2), ..., (K, Vn) в одну пару "ключ-многозначность" (K, [V1, V2, ..., Vn]) . Я чувствую, что смогу сделать это, используя функцию reduceByKey с некоторым привкусом:...
100861 просмотров
schedule
24.09.2022
NoSuchMethodError в приложениях Spark
Я запустил приложение на Spark cluster , но оно выдало мне error вот так:
14/11/20 21:59:08 WARN TaskSetManager: Lost task 11.0 in stage 0.0 (TID 64, spark1): java.lang.NoSuchMethodError:...
2684 просмотров
schedule
26.11.2022
Преобразование столбца из schemaRDD в массив строк
Я пытаюсь преобразовать столбец, представляющий собой массив строк, в строку путем объединения его значений, но почему-то не могу связать этот конкретный столбец с массивом строк:
val converted = jsonFiles.map(line=>...
720 просмотров
schedule
29.02.2024
Обновить схему запросаRDD
Я использую schemaRDD в scala для некоторых преобразований данных. При использовании запроса на обновление точно так же, как контекст SQL, как в этом примере UPDATE users SET email = '[email protected]' WHERE ID = 1 , я получаю следующую ошибку:...
371 просмотров
schedule
12.04.2023
Соедините два обычных RDD с/без Spark SQL
Мне нужно объединить два обычных RDDs в один или несколько столбцов. Логически эта операция эквивалентна операции соединения двух таблиц с базой данных. Интересно, это возможно только через Spark SQL или есть другие способы сделать это.
В...
75783 просмотров
schedule
22.06.2022
Можно ли использовать reduceBykey для изменения типа и объединения значений — Scala Spark?
В коде ниже я пытаюсь объединить значения:
val rdd: org.apache.spark.rdd.RDD[((String), Double)] =
sc.parallelize(List(
(("a"), 1.0),
(("a"), 3.0),
(("a"), 2.0)
))
val reduceByKey = rdd.reduceByKey((a , b) =>...
3974 просмотров
schedule
17.12.2023
Spark: как преобразовать последовательность RDD в RDD
Я только начинаю в Spark & Scala
У меня есть каталог с несколькими файлами, я успешно загружаю их, используя
sc.wholeTextFiles(directory)
Теперь я хочу подняться на один уровень выше. На самом деле у меня есть каталог, содержащий...
5836 просмотров
schedule
28.06.2023
Как дублировать RDD на несколько RDD?
Можно ли дублировать RDD на два или несколько RDD?
Я хочу использовать драйвер cassandra-spark и сохранить RDD в таблицу Cassandra и, кроме того, продолжить вычисления (и в конечном итоге также сохранить результат в Cassandra).
3471 просмотров
schedule
24.08.2023
Как преобразовать RDD[(Key, Value)] в Map[Key, RDD[Value]]
Я долго искал решение, но не нашел правильного алгоритма.
Используя Spark RDD в scala, как я могу преобразовать RDD[(Key, Value)] в Map[key, RDD[Value]] , зная, что я не могу использовать сбор или другие методы, которые могут загружать данные в...
8037 просмотров
schedule
01.11.2022
Как использовать saveTOCassandra()
Я новичок в искре. Я хочу сохранить данные искры в cassandra с условием, что у меня есть RDD, и я хочу сохранить данные этого RDD в еще одну таблицу в cassandra? Возможно ли это, если да, то как?
8603 просмотров
schedule
24.07.2023