Публикации по теме 'hdfs'
Простая программа Java для добавления в файл в Hdfs
В этом блоге я представлю вам Java-программу для добавления в файл в HDFS.
Я буду использовать Maven в качестве инструмента сборки.
Теперь для начала-
Во-первых, нам нужно добавить зависимости maven в pom.xml.
Теперь нам нужно импортировать следующие классы:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.*;
Мы будем использовать класс..
Создание платформы разработки больших данных с помощью docker-compose
Мы живем в эпоху данных! Большие большие данные! Машины и приложения существуют по всему миру, генерируя тонны журналов и данных, меняя способ ведения бизнеса, лечя пациентов, перемещаясь по улицам, принимая решения и, одним предложением, меняя образ жизни.
В настоящее время появилось множество концепций и технологий, позволяющих использовать эту быстро развивающуюся лошадь, а также хранить и управлять данными и вычислениями в кластере серверов (например, распределенные файловые системы,..
Что такое HADOOP (HDFS и MapReduce)
HADOOP – это программная среда, созданная на основе Google Map Reduce и Google File System, которая в настоящее время считается лучшим решением для работы с большими данными. Дополнительную информацию см. в разделе Курс больших данных и Hadoop .
Когда мы говорим о больших данных, это может быть что угодно в виде изображения, фильма и т. д., и они занимают огромное количество места.
В Hadoop хранилище обеспечивается HDFS — это хороший способ хранения для предотвращения..
Вопросы по теме 'hdfs'
Ошибка Hadoop DFS при копировании файла с локального на hdfs
Может кто-нибудь сказать мне, что я делаю неправильно?
2009/08/10 11:33:07 [INFO] - Copying local:/ X/Y/Z.txt to DFS:/X/Y/Z.txt
2009/08/10 11:33:07 [INFO] - put:
org.apache.hadoop.fs.permission.AccessControlException: Permission
denied:...
336 просмотров
schedule
03.03.2023
Как записывать и читать файлы в/из Hadoop HDFS с помощью Ruby?
Есть ли способ работать с HDFS Api с помощью Ruby? Насколько я понимаю, многоязычного файлового API нет, и единственный способ - использовать собственный Java Api. Я пытался использовать JRuby, но это решение нестабильно и не очень родное. Также я...
3415 просмотров
schedule
05.02.2023
Hadoop загружает файлы с локального компьютера на amazon s3
Я работаю над приложением Java MapReduce, которое должно предоставлять услугу загрузки некоторых изображений с локального компьютера пользователя в корзину S3.
Дело в том, что приложение должно работать в кластере EC2, поэтому я не уверен, как я...
1650 просмотров
schedule
22.05.2023
Hadoop DFS указывает на текущий каталог
Несколько месяцев назад мы установили CLoudera Hadoop 3 на нашу локальную машину, и все было в порядке. Недавно мы также установили Whirr, чтобы начать работать с кластерами. Хотя мы столкнулись с некоторыми проблемами, через некоторое время мы...
989 просмотров
schedule
18.06.2023
коммерческая поддержка hbase/hdfs
Я знаю, что Cloudera находится на переднем крае предоставления коммерческой поддержки для hadoop/hbase/hdfs. Есть ли другие поставщики, которые предоставляют это?
-Чинмай
1349 просмотров
schedule
06.12.2022
Импорт многоуровневых каталогов журналов в hadoop/pig
Мы храним наши журналы в S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов в зависимости от типа/даты. Например:...
1494 просмотров
schedule
15.04.2022
Как я могу узнать, был ли уже отформатирован namenode hadoop?
При настройке моего узла имени hadoop в первый раз я знаю, что мне нужно запустить
bin/hadoop namenode -format
но запуск этого во второй раз, после загрузки данных в HDFS, сотрет все и переформатирует. Есть ли простой способ узнать, был ли...
3222 просмотров
schedule
29.04.2024
HDFS говорит, что файл все еще открыт, но процесс записи в него был остановлен
Я новичок в Hadoop, и я потратил последние пару часов, пытаясь найти эту проблему в Google, но я не смог найти ничего, что помогло бы. Моя проблема в том, что HDFS говорит, что файл все еще открыт, хотя процесс записи в него давно мертв. Это делает...
3177 просмотров
schedule
28.08.2022
Hadoop, как сжать выходные данные картографа, но не выходные данные редуктора
У меня есть программа Java с уменьшением карты, в которой я пытаюсь сжать только вывод картографа, но не вывод редуктора. Я думал, что это будет возможно, установив следующие свойства в экземпляре конфигурации, как указано ниже. Однако, когда я...
47947 просмотров
schedule
21.04.2023
Отвечает ли входной формат за реализацию локальности данных в MapReduce Hadoop?
Я пытаюсь понять локальность данных применительно к структуре Hadoop Map/Reduce. В частности, я пытаюсь понять, какой компонент обрабатывает локальность данных (т.е. это формат ввода?)
На странице сети разработчиков Yahoo говорится: "Среда...
2640 просмотров
schedule
21.06.2023
hadoop namenode -format возвращает java.net.UnknownHostException
В настоящее время я изучаю Hadoop и пытаюсь настроить тест с одним узлом, как определено в http://hadoop.apache.org/common/docs/current/single_node_setup.html
Я настроил ssh (могу войти без пароля).
Мой сервер находится в нашей интрасети, за...
21477 просмотров
schedule
09.06.2023
Сжатие значений ключа HBase?
Спасибо за интерес к моему вопросу. Прежде чем я начну, я хотел бы сообщить вам, что я новичок в Hadoop и HBase. Пока что я нахожу Hadoop очень интересным и хотел бы внести больший вклад в будущем.
Меня в первую очередь интересует повышение...
2043 просмотров
schedule
08.04.2022
Загрузка больших файлов данных, сжатых с помощью gzip, в HDFS
У меня есть вариант использования, когда я хочу загрузить большие файлы текстовых данных в формате gzip (~ 60 ГБ) на HDFS.
Мой код ниже занимает около 2 часов, чтобы загрузить эти файлы кусками по 500 МБ. Ниже приведен псевдокод. Я проверял,...
2578 просмотров
schedule
25.01.2024
Шардинг против DFS
Насколько я понимаю, сегментирование (например, в MongoDB) и распределенные файловые системы (например, HDFS в HBase или HyperTable) — это разные механизмы, которые базы данных используют для масштабирования, однако мне интересно, как они соотносятся?
4552 просмотров
schedule
05.09.2023
Проблемы с размером блока HDFS и размером файла файл меньше размера блока
У меня есть кластер HDFS, работающий на нескольких машинах Linux с размером блока по умолчанию 64 МБ. Если я сохраню файл размером 1 МБ, займет ли он 64 МБ памяти на моей машине Linux?
Точно так же, если я сохраню файл размером 65 МБ, будет ли он...
1018 просмотров
schedule
11.12.2022
Hadoop: сжатие выходных данных задания только для карты
У меня есть задание только для карты, которое выводится в TextOutputFormat.
В настоящее время я вижу три способа сжатия моего вывода:
путем определения карты для сжатия через mapred.compress.map.output.*
путем определения вывода для...
714 просмотров
schedule
08.08.2022
Hbase читает высокую нагрузку
Я нахожусь в процессе поиска решения noSQL для нужд нашей компании. На данный момент поиск сужается до hBase. Я много читал об архитектуре, производительности и т. д., но одна вещь все еще остается для меня открытой.
Например, если у вас есть...
1889 просмотров
schedule
27.06.2022
Как удалить узел hadoop из DFS, но не из Mapred?
Я довольно новичок в хаупе. Для запуска некоторых тестов мне нужны различные конфигурации Hadoop для сравнения.
Я хочу знать способ удаления ведомого устройства hadoop из DFS (больше не работает демон datanode), но не из Mapred (продолжать...
3355 просмотров
schedule
02.03.2023
Недопустимый символ в полномочиях по индексу 7: hdfs://localhost:9000 с помощью hadoop
Я пытаюсь подключиться к hdfs.
Configuration configuration = new Configuration();
configuration.set("fs.default.name", this.hdfsHost);
fs = FileSystem.get(configuration);
hdfsHost — 127.0.0.1:9000.
но получить это исключение в...
15409 просмотров
schedule
15.09.2022
hadoop dfs -copyFromLocal src dest
Мой вопрос в том, почему нам нужно указывать dest. Файл, который я помещаю в hdfs, не обязательно полностью лежит на локальной машине, так какой смысл указывать dest в команде.
Когда я запускаю команду через команду lie, а затем делаю hadoop dfs...
1531 просмотров
schedule
16.05.2023