Публикации по теме 'hdfs'


Простая программа Java для добавления в файл в Hdfs
В этом блоге я представлю вам Java-программу для добавления в файл в HDFS. Я буду использовать Maven в качестве инструмента сборки. Теперь для начала- Во-первых, нам нужно добавить зависимости maven в pom.xml. Теперь нам нужно импортировать следующие классы: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.*; Мы будем использовать класс..

Создание платформы разработки больших данных с помощью docker-compose
Мы живем в эпоху данных! Большие большие данные! Машины и приложения существуют по всему миру, генерируя тонны журналов и данных, меняя способ ведения бизнеса, лечя пациентов, перемещаясь по улицам, принимая решения и, одним предложением, меняя образ жизни. В настоящее время появилось множество концепций и технологий, позволяющих использовать эту быстро развивающуюся лошадь, а также хранить и управлять данными и вычислениями в кластере серверов (например, распределенные файловые системы,..

Что такое HADOOP (HDFS и MapReduce)
HADOOP  – это программная среда, созданная на основе Google Map Reduce и Google File System, которая в настоящее время считается лучшим решением для работы с большими данными. Дополнительную информацию см. в разделе Курс больших данных и Hadoop . Когда мы говорим о больших данных, это может быть что угодно в виде изображения, фильма и т. д., и они занимают огромное количество места. В Hadoop хранилище обеспечивается HDFS — это хороший способ хранения для предотвращения..

Вопросы по теме 'hdfs'

Ошибка Hadoop DFS при копировании файла с локального на hdfs
Может кто-нибудь сказать мне, что я делаю неправильно? 2009/08/10 11:33:07 [INFO] - Copying local:/ X/Y/Z.txt to DFS:/X/Y/Z.txt 2009/08/10 11:33:07 [INFO] - put: org.apache.hadoop.fs.permission.AccessControlException: Permission denied:...
336 просмотров
schedule 03.03.2023

Как записывать и читать файлы в/из Hadoop HDFS с помощью Ruby?
Есть ли способ работать с HDFS Api с помощью Ruby? Насколько я понимаю, многоязычного файлового API нет, и единственный способ - использовать собственный Java Api. Я пытался использовать JRuby, но это решение нестабильно и не очень родное. Также я...
3415 просмотров
schedule 05.02.2023

Hadoop загружает файлы с локального компьютера на amazon s3
Я работаю над приложением Java MapReduce, которое должно предоставлять услугу загрузки некоторых изображений с локального компьютера пользователя в корзину S3. Дело в том, что приложение должно работать в кластере EC2, поэтому я не уверен, как я...
1650 просмотров
schedule 22.05.2023

Hadoop DFS указывает на текущий каталог
Несколько месяцев назад мы установили CLoudera Hadoop 3 на нашу локальную машину, и все было в порядке. Недавно мы также установили Whirr, чтобы начать работать с кластерами. Хотя мы столкнулись с некоторыми проблемами, через некоторое время мы...
989 просмотров
schedule 18.06.2023

коммерческая поддержка hbase/hdfs
Я знаю, что Cloudera находится на переднем крае предоставления коммерческой поддержки для hadoop/hbase/hdfs. Есть ли другие поставщики, которые предоставляют это? -Чинмай
1349 просмотров
schedule 06.12.2022

Импорт многоуровневых каталогов журналов в hadoop/pig
Мы храним наши журналы в S3, и один из наших запросов (Pig) будет захватывать три разных типа журналов. Каждый тип журнала находится в наборах подкаталогов в зависимости от типа/даты. Например:...
1494 просмотров
schedule 15.04.2022

Как я могу узнать, был ли уже отформатирован namenode hadoop?
При настройке моего узла имени hadoop в первый раз я знаю, что мне нужно запустить bin/hadoop namenode -format но запуск этого во второй раз, после загрузки данных в HDFS, сотрет все и переформатирует. Есть ли простой способ узнать, был ли...
3222 просмотров
schedule 29.04.2024

HDFS говорит, что файл все еще открыт, но процесс записи в него был остановлен
Я новичок в Hadoop, и я потратил последние пару часов, пытаясь найти эту проблему в Google, но я не смог найти ничего, что помогло бы. Моя проблема в том, что HDFS говорит, что файл все еще открыт, хотя процесс записи в него давно мертв. Это делает...
3177 просмотров
schedule 28.08.2022

Hadoop, как сжать выходные данные картографа, но не выходные данные редуктора
У меня есть программа Java с уменьшением карты, в которой я пытаюсь сжать только вывод картографа, но не вывод редуктора. Я думал, что это будет возможно, установив следующие свойства в экземпляре конфигурации, как указано ниже. Однако, когда я...
47947 просмотров
schedule 21.04.2023

Отвечает ли входной формат за реализацию локальности данных в MapReduce Hadoop?
Я пытаюсь понять локальность данных применительно к структуре Hadoop Map/Reduce. В частности, я пытаюсь понять, какой компонент обрабатывает локальность данных (т.е. это формат ввода?) На странице сети разработчиков Yahoo говорится: "Среда...
2640 просмотров
schedule 21.06.2023

hadoop namenode -format возвращает java.net.UnknownHostException
В настоящее время я изучаю Hadoop и пытаюсь настроить тест с одним узлом, как определено в http://hadoop.apache.org/common/docs/current/single_node_setup.html Я настроил ssh (могу войти без пароля). Мой сервер находится в нашей интрасети, за...
21477 просмотров
schedule 09.06.2023

Сжатие значений ключа HBase?
Спасибо за интерес к моему вопросу. Прежде чем я начну, я хотел бы сообщить вам, что я новичок в Hadoop и HBase. Пока что я нахожу Hadoop очень интересным и хотел бы внести больший вклад в будущем. Меня в первую очередь интересует повышение...
2043 просмотров
schedule 08.04.2022

Загрузка больших файлов данных, сжатых с помощью gzip, в HDFS
У меня есть вариант использования, когда я хочу загрузить большие файлы текстовых данных в формате gzip (~ 60 ГБ) на HDFS. Мой код ниже занимает около 2 часов, чтобы загрузить эти файлы кусками по 500 МБ. Ниже приведен псевдокод. Я проверял,...
2578 просмотров
schedule 25.01.2024

Шардинг против DFS
Насколько я понимаю, сегментирование (например, в MongoDB) и распределенные файловые системы (например, HDFS в HBase или HyperTable) — это разные механизмы, которые базы данных используют для масштабирования, однако мне интересно, как они соотносятся?
4552 просмотров

Проблемы с размером блока HDFS и размером файла файл меньше размера блока
У меня есть кластер HDFS, работающий на нескольких машинах Linux с размером блока по умолчанию 64 МБ. Если я сохраню файл размером 1 МБ, займет ли он 64 МБ памяти на моей машине Linux? Точно так же, если я сохраню файл размером 65 МБ, будет ли он...
1018 просмотров
schedule 11.12.2022

Hadoop: сжатие выходных данных задания только для карты
У меня есть задание только для карты, которое выводится в TextOutputFormat. В настоящее время я вижу три способа сжатия моего вывода: путем определения карты для сжатия через mapred.compress.map.output.* путем определения вывода для...
714 просмотров
schedule 08.08.2022

Hbase читает высокую нагрузку
Я нахожусь в процессе поиска решения noSQL для нужд нашей компании. На данный момент поиск сужается до hBase. Я много читал об архитектуре, производительности и т. д., но одна вещь все еще остается для меня открытой. Например, если у вас есть...
1889 просмотров
schedule 27.06.2022

Как удалить узел hadoop из DFS, но не из Mapred?
Я довольно новичок в хаупе. Для запуска некоторых тестов мне нужны различные конфигурации Hadoop для сравнения. Я хочу знать способ удаления ведомого устройства hadoop из DFS (больше не работает демон datanode), но не из Mapred (продолжать...
3355 просмотров
schedule 02.03.2023

Недопустимый символ в полномочиях по индексу 7: hdfs://localhost:9000 с помощью hadoop
Я пытаюсь подключиться к hdfs. Configuration configuration = new Configuration(); configuration.set("fs.default.name", this.hdfsHost); fs = FileSystem.get(configuration); hdfsHost — 127.0.0.1:9000. но получить это исключение в...
15409 просмотров
schedule 15.09.2022

hadoop dfs -copyFromLocal src dest
Мой вопрос в том, почему нам нужно указывать dest. Файл, который я помещаю в hdfs, не обязательно полностью лежит на локальной машине, так какой смысл указывать dest в команде. Когда я запускаю команду через команду lie, а затем делаю hadoop dfs...
1531 просмотров
schedule 16.05.2023