Вопросы по теме 'sequencefile'

Как я могу использовать API-код файла последовательности Mahout?
В Mahout существует команда для создания файла последовательности как bin/mahout seqdirectory -c UTF-8 -i <input address> -o <output address> . Я хочу использовать эту команду как код API.
6119 просмотров
schedule 07.06.2023

Hadoop HDFS и файл последовательности
Мне приходит в голову еще один очень простой вопрос концептуального уровня: каковы различия и взаимосвязь между HDFS и различными форматами файлов - файлом последовательности (файл карты на его основе), файл HAR? Я думаю, что ответ таков: HDFS —...
836 просмотров
schedule 25.08.2022

Как класс Mapper идентифицирует SequenceFile как входной файл в hadoop?
В моей единственной задаче MapReduce я переопределяю BytesWritable как KeyBytesWritable и переопределяю ByteWritable как ValueBytesWritable. Затем я вывожу результат, используя SequenceFileOutputFormat. Мой вопрос: когда я запускаю следующую...
2791 просмотров
schedule 29.06.2022

Обработка изменений полного имени Writables в Hadoop SequenceFile
У меня есть куча файлов Hadoop SequenceFiles, которые были написаны с помощью написанного мной подкласса Writable. Назовем его FishWritable. Этот Writable некоторое время работал хорошо, пока я не решил, что для ясности нужно переименовать пакет....
1034 просмотров
schedule 12.06.2023

Если я храню все свои изображения в SequenceFile, как я могу разработать картограф для обработки их выбора?
У меня есть много файлов изображений, и мне нужно хранить их в HDFS, чтобы избежать проблемы с маленькими файлами, я планирую хранить свои файлы изображений с помощью файлов последовательности. Моя проблема в том, что мне нужно создать программу...
686 просмотров
schedule 18.08.2022

Запись и чтение массивов необработанных байтов в Spark — с помощью Sequence File SequenceFile
Как записать RDD[Array[Byte]] в файл с помощью Apache Spark и прочитать его снова?
11354 просмотров
schedule 11.08.2023

SequenceFile как текстовый CLI с пользовательским классом
У меня есть файл HDFS в формате SequenceFile . Ключ — Text , а значение — пользовательский сериализуемый класс (скажем) MyCustomClass . Я хочу прочитать этот файл с помощью команды hadoop fs -text , но это не удается, так как Hadoop не знает,...
336 просмотров

Формат хранения данных для строк неструктурированных данных в HDFS
Мы потребляем очень большие данные, которые должны быть записаны так же быстро, как мы получаем, и мы используем HDFS, поэтому мы предпочитаем использовать его. Данные почти неструктурированы, и мы будем редко выполнять базовые запросы по ним....
160 просмотров

Чтение файла последовательности в PySpark 2.0
У меня есть файл последовательности, значения которого выглядят как (string_value, json_value) Меня не волнует строковое значение. В Scala я могу прочитать файл val reader = sc.sequenceFile[String, String]("/path...") val data =...
7605 просмотров
schedule 06.10.2022

Как сделать мой класс Java доступным для записи, расширив его с помощью класса scala?
Мне нужно saveAsSequenceFile мой объект класса Java (по какой-то причине я не могу исправить сам класс), для этого я должен сделать его доступным для записи. Я пытаюсь расширить свой класс Java с помощью класса Scala (можно использовать только...
241 просмотров

Как спроектировать каждый преобразователь для обработки каждой строки SequenceFile?
У меня есть SequenceFile, созданный из предыдущего задания MapReduce. Этот SequenceFile состоит из N строк, каждая строка представляет собой пару ключ и значение , оба являются текстовыми объектами. line1: key1 \t value1 line2: key2 \t...
133 просмотров
schedule 17.04.2022