Параллелизм Azure Data Lake Store

Я играл с Azure Data Lake Store, и в документации Microsoft утверждает, что система оптимизирована для небольших операций записи в файлы с малой задержкой. Тестируя его, я попытался выполнить большое количество операций записи параллельных задач в один файл, но этот метод в большинстве случаев терпит неудачу, возвращая неверный запрос. Эта ссылка https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf показывает, что HDFS не предназначена для обработки параллельных добавлений к одному файлу, поэтому я попытался еще раз, используя метод ConcurrentAppendAsync, найденный в API, но, хотя этот метод не дает сбоя, мой файл никогда не изменялся в магазине.


person evilpilaf    schedule 10.03.2016    source источник


Ответы (1)


То, что вы узнали, правильно о том, как будет работать параллельная запись. Я предполагаю, что вы уже прочитали документация ConcurrentAppendAsync.

Итак, в вашем случае вы использовали один и тот же файл для теста записи Webhdfs и ConcurrentAppendAsync? Если это так, то ConcurrentAppendAsync не будет работать, как указано в документации. Но вы должны были получить ошибку в этом случае.

В любом случае сообщите нам, что произошло, и мы сможем продолжить расследование.

Спасибо,

Сачин Шет

Менеджер программы — Azure Data Lake

person Sachin Sheth    schedule 11.03.2016
comment
Я не знаю, что я делаю неправильно, но ConcurrentAppendAsync ничего не добавляет к моему файлу, но и не терпит неудачу - person evilpilaf; 15.03.2016
comment
Не могли бы вы связаться со мной по электронной почте — sachinsatmicrosoftdotcom? Хотелось бы увидеть, что происходит в деталях. Спасибо. - person Sachin Sheth; 21.03.2016