Я играл с Azure Data Lake Store, и в документации Microsoft утверждает, что система оптимизирована для небольших операций записи в файлы с малой задержкой. Тестируя его, я попытался выполнить большое количество операций записи параллельных задач в один файл, но этот метод в большинстве случаев терпит неудачу, возвращая неверный запрос. Эта ссылка https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf показывает, что HDFS не предназначена для обработки параллельных добавлений к одному файлу, поэтому я попытался еще раз, используя метод ConcurrentAppendAsync, найденный в API, но, хотя этот метод не дает сбоя, мой файл никогда не изменялся в магазине.
Параллелизм Azure Data Lake Store
Ответы (1)
То, что вы узнали, правильно о том, как будет работать параллельная запись. Я предполагаю, что вы уже прочитали документация ConcurrentAppendAsync.
Итак, в вашем случае вы использовали один и тот же файл для теста записи Webhdfs и ConcurrentAppendAsync? Если это так, то ConcurrentAppendAsync не будет работать, как указано в документации. Но вы должны были получить ошибку в этом случае.
В любом случае сообщите нам, что произошло, и мы сможем продолжить расследование.
Спасибо,
Сачин Шет
Менеджер программы — Azure Data Lake
person
Sachin Sheth
schedule
11.03.2016
Я не знаю, что я делаю неправильно, но ConcurrentAppendAsync ничего не добавляет к моему файлу, но и не терпит неудачу
- person evilpilaf; 15.03.2016
Не могли бы вы связаться со мной по электронной почте — sachinsatmicrosoftdotcom? Хотелось бы увидеть, что происходит в деталях. Спасибо.
- person Sachin Sheth; 21.03.2016