Параллелизм Azure Data Lake Store

Я играл с Azure Data Lake Store, и в документации Microsoft утверждает, что система оптимизирована для небольших операций записи в файлы с малой задержкой. Тестируя его, я попытался выполнить большое количество операций записи параллельных задач в один файл, но этот метод в большинстве случаев терпит неудачу, возвращая неверный запрос. Эта ссылка https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf показывает, что HDFS не предназначена для обработки параллельных добавлений к одному файлу, поэтому я попытался еще раз, используя метод ConcurrentAppendAsync, найденный в API, но, хотя этот метод не дает сбоя, мой файл никогда не изменялся в магазине.

azure-data-lake webhdfs

evilpilaf 10.03.2016 источник

Ответы (1)

arrow_upward
3
arrow_downward

То, что вы узнали, правильно о том, как будет работать параллельная запись. Я предполагаю, что вы уже прочитали документация ConcurrentAppendAsync.

Итак, в вашем случае вы использовали один и тот же файл для теста записи Webhdfs и ConcurrentAppendAsync? Если это так, то ConcurrentAppendAsync не будет работать, как указано в документации. Но вы должны были получить ошибку в этом случае.

В любом случае сообщите нам, что произошло, и мы сможем продолжить расследование.

Спасибо,

Сачин Шет

Менеджер программы — Azure Data Lake

Sachin Sheth 11.03.2016

comment

Я не знаю, что я делаю неправильно, но ConcurrentAppendAsync ничего не добавляет к моему файлу, но и не терпит неудачу - evilpilaf; 15.03.2016

comment

Не могли бы вы связаться со мной по электронной почте — sachinsatmicrosoftdotcom? Хотелось бы увидеть, что происходит в деталях. Спасибо. - Sachin Sheth; 21.03.2016

Параллелизм Azure Data Lake Store

Ответы (1)

Вопросы по теме