Вопросы по теме 'alluxio'

Spark Tachyon: Как удалить файл?
В Scala в качестве эксперимента я создаю файл последовательности на Tachyon с помощью Spark и считываю его обратно. Я хочу удалить файл из Tachyon также с помощью сценария Spark. val rdd = sc.parallelize(Array(("a",2), ("b",3), ("c",1)))...
1438 просмотров
schedule 21.11.2022

OFF_HEAP rdd был автоматически удален Тахионом после выполнения искровой работы.
Я запускаю приложение spark, оно использует StorageLevel.OFF_HEAP для сохранения rdd (мой тахион и искра находятся в локальном режиме). как это: val lines = sc.textFile("FILE_PATH/test-lines-1") val words = lines.flatMap(_.split(" ")).map(word...
341 просмотров
schedule 13.11.2022

Ошибки при использовании хранилища OFF_HEAP с Spark 1.4.0 и Tachyon 0.6.4
Я пытаюсь сохранить свой RDD, используя хранилище вне кучи на Spark 1.4.0 и tachyon 0.6.4, делая это следующим образом: val a = sqlContext.parquetFile("a1.parquet") a.persist(org.apache.spark.storage.StorageLevel.OFF_HEAP) a.count()...
1302 просмотров
schedule 21.11.2022

искра сохраняется MEMOERY_AND_DISK против Тахиона
Я хочу убедиться, что понимаю тахион. Является ли использование Tachyon с hdfs под ним более или менее эквивалентным сохранению RDD с использованием MEMORY_AND_DISK. В обоих случаях, когда объем данных превышает объем памяти, они переносятся на...
300 просмотров
schedule 05.07.2022

Размер кадра Alluxio() больше, чем max() в Spark
У меня странная ошибка на Alluxio со Spark. Я прочитал 20 000 файлов с помощью Spark от Alluxio, и это работает. Но я прочитал 40 000 файлов с помощью Spark от Alluxio, и он не работает. Я использую Alluxio 1.2, Spark 1.6.0 и читаю данные с...
398 просмотров
schedule 19.01.2023

alluxio не распределяет файлы по кластеру
Я использую кластер из 6 узлов для alluxio (версия 1.4), но он не распределяет файлы по кластеру, один рабочий использует только 98%, а другой рабочий использует 50%-55% главного узла, используя только 18% И я' m, используя...
69 просмотров
schedule 10.02.2023

Может ли Apache Alluxio использовать Azure Data Lake как в хранилище?
Я создал кластер HDInsight со Spark2.2 и HDI 3.6, который считывает данные из озера данных Azure. Пользователи будут выполнять на нем Spark-SQL, я хочу использовать Alluxio в качестве кеша для ускорения запросов. После некоторого исследования я...
124 просмотров
schedule 25.02.2024

Как установить главный адрес и порт 19998 в java API Alluxio 2.0?
Я хочу знать, как установить имя хоста и rpc_port мастера в API alluxio 2.0 java. Когда я использую код, работающий в alluxio 1.8, я обнаруживаю, что он не работает в alluxio 2.0. Вот мой код, он не работает. Я не знаю, как написать правильный...
81 просмотров
schedule 18.05.2023

Hive: изменение местоположения внешней таблицы занимает слишком много времени
В Hive есть два типа таблиц: управляемые и внешние, для разницы вы можете проверить Управляемый. VS Внешние таблицы . В настоящее время, чтобы переместить внешнюю базу данных с HDFS на Alluxio , мне нужно изменить расположение внешней таблицы...
308 просмотров
schedule 15.04.2022

Hive metastore с хранилищем alluxio в проблеме типа данных parquet
Я использую prestodb с хранилищем метаданных улья для хранения схем и кешем alluxio в качестве внешнего хранилища данных. Формат хранения, используемый в схеме alluxio и улья, - ПАРКЕТ . При получении поля отметки времени из presto с помощью...
256 просмотров
schedule 01.12.2022