Hadoop загружает файлы с локального компьютера на amazon s3

Я работаю над приложением Java MapReduce, которое должно предоставлять услугу загрузки некоторых изображений с локального компьютера пользователя в корзину S3.

Дело в том, что приложение должно работать в кластере EC2, поэтому я не уверен, как я могу ссылаться на локальный компьютер при копировании файлов. Методу copyFromLocalFile(..) нужен путь от локальной машины, которая будет кластером EC2...

Я не уверен, правильно ли я изложил проблему, может ли кто-нибудь понять, что я имею в виду?

Спасибо


person AndaP    schedule 06.12.2010    source источник
comment
Что здесь непонятно, так это то, как пользователь (с локального компьютера которого вы хотите загрузить изображения) взаимодействует с этим приложением. Можете ли вы поделиться более подробной информацией об архитектуре?   -  person bradheintz    schedule 14.12.2010


Ответы (2)


Вы также можете исследовать s3distcp: http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.html

Apache DistCp — это инструмент с открытым исходным кодом, который можно использовать для копирования больших объемов данных. DistCp использует MapReduce для распределенного копирования — совместного использования копии, обработки ошибок, восстановления и создания отчетов на нескольких серверах. S3DistCp — это расширение DistCp, оптимизированное для работы с Amazon Web Services, в частности с Amazon Simple Storage Service (Amazon S3). Используя S3DistCp, вы можете эффективно копировать большие объемы данных из Amazon S3 в HDFS, где они могут быть обработаны потоком заданий Amazon Elastic MapReduce (Amazon EMR). Вы также можете использовать S3DistCp для копирования данных между корзинами Amazon S3 или из HDFS в Amazon S3.

person user1150051    schedule 15.03.2012

Вам нужно будет получить файлы из userMachine по крайней мере на 1 узел, прежде чем вы сможете использовать их через MapReduce.

Функции FileSystem и FileUtil относятся к путям либо на HDFS, либо на локальном диске одного из узлов кластера. Он не может ссылаться на локальную систему пользователя. (Может быть, если вы настроили ssh... может быть?)

person QuinnG    schedule 02.02.2011