Публикации по тегам alluxio

Вопросы по теме 'alluxio'

В Scala в качестве эксперимента я создаю файл последовательности на Tachyon с помощью Spark и считываю его обратно. Я хочу удалить файл из Tachyon также с помощью сценария Spark. val rdd = sc.parallelize(Array(("a",2), ("b",3), ("c",1)))...

1438 просмотров

apache-spark scala alluxio

21.11.2022

OFF_HEAP rdd был автоматически удален Тахионом после выполнения искровой работы.

Я запускаю приложение spark, оно использует StorageLevel.OFF_HEAP для сохранения rdd (мой тахион и искра находятся в локальном режиме). как это: val lines = sc.textFile("FILE_PATH/test-lines-1") val words = lines.flatMap(_.split(" ")).map(word...

341 просмотров

apache-spark rdd alluxio

13.11.2022

Ошибки при использовании хранилища OFF_HEAP с Spark 1.4.0 и Tachyon 0.6.4

Я пытаюсь сохранить свой RDD, используя хранилище вне кучи на Spark 1.4.0 и tachyon 0.6.4, делая это следующим образом: val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OFF_HEAP) a.count()...

1302 просмотров

apache-spark apache-spark-sql alluxio

21.11.2022

искра сохраняется MEMOERY_AND_DISK против Тахиона

Я хочу убедиться, что понимаю тахион. Является ли использование Tachyon с hdfs под ним более или менее эквивалентным сохранению RDD с использованием MEMORY_AND_DISK. В обоих случаях, когда объем данных превышает объем памяти, они переносятся на...

300 просмотров

apache-spark in-memory alluxio

05.07.2022

Размер кадра Alluxio() больше, чем max() в Spark

У меня странная ошибка на Alluxio со Spark. Я прочитал 20 000 файлов с помощью Spark от Alluxio, и это работает. Но я прочитал 40 000 файлов с помощью Spark от Alluxio, и он не работает. Я использую Alluxio 1.2, Spark 1.6.0 и читаю данные с...

398 просмотров

java apache-spark thrift alluxio

19.01.2023

alluxio не распределяет файлы по кластеру

Я использую кластер из 6 узлов для alluxio (версия 1.4), но он не распределяет файлы по кластеру, один рабочий использует только 98%, а другой рабочий использует 50%-55% главного узла, используя только 18% И я' m, используя...

69 просмотров

apache-spark alluxio

10.02.2023

Может ли Apache Alluxio использовать Azure Data Lake как в хранилище?

Я создал кластер HDInsight со Spark2.2 и HDI 3.6, который считывает данные из озера данных Azure. Пользователи будут выполнять на нем Spark-SQL, я хочу использовать Alluxio в качестве кеша для ускорения запросов. После некоторого исследования я...

124 просмотров

azure azure-data-lake alluxio

25.02.2024

Как установить главный адрес и порт 19998 в java API Alluxio 2.0?

Я хочу знать, как установить имя хоста и rpc_port мастера в API alluxio 2.0 java. Когда я использую код, работающий в alluxio 1.8, я обнаруживаю, что он не работает в alluxio 2.0. Вот мой код, он не работает. Я не знаю, как написать правильный...

81 просмотров

alluxio

18.05.2023

Hive: изменение местоположения внешней таблицы занимает слишком много времени

В Hive есть два типа таблиц: управляемые и внешние, для разницы вы можете проверить Управляемый. VS Внешние таблицы . В настоящее время, чтобы переместить внешнюю базу данных с HDFS на Alluxio , мне нужно изменить расположение внешней таблицы...

308 просмотров

hadoop hive bigdata alluxio

15.04.2022

Hive metastore с хранилищем alluxio в проблеме типа данных parquet

Я использую prestodb с хранилищем метаданных улья для хранения схем и кешем alluxio в качестве внешнего хранилища данных. Формат хранения, используемый в схеме alluxio и улья, - ПАРКЕТ . При получении поля отметки времени из presto с помощью...

256 просмотров

parquet hive presto alluxio

01.12.2022