Как Google хочет улучшить параллелизм своего хранилища данных

Еще в прошлом году Google анонсировала очереди запросов для своего сервиса SaaS Data Warehouse BigQuery. Теперь эта функция наконец стала общедоступной.

Хотя это не совсем новое, потому что, как уже упоминалось, оно уже доступно в предварительной версии, следует сказать, что это мешает продуктивной среде, поскольку вы не хотите использовать и реализовывать что-либо, что может быть отозвано.



BigQuery теперь поддерживает очереди запросов
Использование очередей запросов для параллелизма в Google BigQuerymedium.com



При использовании очередей запросов BigQuery автоматически определяет параллелизм запросов на основе доступных слотов, а не фиксированного ограничения. После достижения максимального параллелизма дополнительные запросы ставятся в очередь до тех пор, пока не станут доступны ресурсы обработки[1].

Параллелизм является важным критерием для хранилища данных, поскольку многие пользователи могут работать одновременно. В то время как управлять несколькими пользователями легко, управлять масштабированием до тысяч очень сложно. Каждый должен иметь возможность работать с одними и теми же данными в реальном времени, не оказывая негативного влияния на других пользователей и не получая ошибок квоты.

Поэтому за последние несколько недель Google развернул очереди запросов и включил их по умолчанию. Кроме того, никаких действий со стороны пользователя не требуется, и Google обещает, что производительность вашего запроса не ухудшится. При желании у вас есть возможность установить максимальную цель параллелизма для резервирования. Кроме того, вы также можете контролировать время ожидания очереди интерактивных и пакетных запросов, используя конфигурации по умолчанию[1].



Источники и дополнительная литература

[1] Google, Примечания к выпуску BigQuery (2023 г.)

[2] Google, Используйте очереди запросов (2022 г.)