Задержка в запуске очередей задач и ошибка срока превышения при добавлении в корзину задач

Две недели назад у меня возникла странная проблема. У меня есть система, работающая в GAE Python (на стороне сервера) с 100 ресторанами и 1000 пользователями, работающими без проблем, но внезапно, начиная с двух недель назад, каждый день в час пик, задачи в очереди задач столкнулись с большой задержкой в ​​​​своем запуске , две недели назад было всего 1 или 2 секунды, теперь от 15 до 60 секунд, что влияет на удобство использования и удобство использования. Я должен изменить весь код с помощью очередей задач и заменить их вызовами асинхронного запроса urlfetch, не дожидаясь rpc (успешное тестирование на некоторых клиентах). Хуже всего то, что при добавлении задачи в очереди они вызывают ошибку 123 в час пик (более 100 запросов в секунду), теряя от 50 до 1000 запросов каждый день (от 300 000 в день без проблем). Задание и мои процессы очень быстрые, они длятся всего от 50мс до 3 секунд, не больше, но у меня их много с 60000мс и больше в "ЛИМБО", никогда не выполняются и отменяются даже не запустившись (у меня логирование .debug сообщение в самом начале каждой задачи/процесса, которые никогда не выполняются). У меня есть 2 простаивающих экземпляра и все настройки для увеличения количества экземпляров без ограничений, когда ожидающая задержка превышает 500 мс. Время запуска моих инстансов всего 1 секунда, особых процессов в загрузке нет. У меня есть 6 модулей, отдельные модули для задачи, и проблема затрагивает модуль, который вызывает task.add, чтобы добавить задачу в корзину (а не модуль, который выполняет задачу). Я внес все изменения, предложенные на этом форуме и в документации Google, чтобы избежать конфликтов с хранилищем данных, я также деактивировал журналы, я часто использую кэш памяти, я изменил экземпляры F1 на F2, и эта ошибка продолжается. И ПОЯВИЛОСЬ ДВЕ НЕДЕЛИ НАЗАД. У меня полтора года работает приложение без проблем, и вдруг эта проблема появилась.

Кто-нибудь сталкивался с такой же проблемой, и в этом случае у вас есть рекомендации? Обратите внимание, что мой код работал нормально в течение года, и эта проблема возникает с двух недель назад, количество пользователей растет, но не так сильно, две недели назад было 850 пользователей, а сейчас 1.000, поэтому я думаю, что это не проблема масштаба. . Мои процессы очень эффективны и быстры. У меня 3 года программирования на GAE Python и 30 лет опыта в TI, для меня это очень странно и может быть связано с изменением платформы.

Это моя стандартная конфигурация module.yaml:

runtime: python27
api_version: 1
instance_class: F2
threadsafe: true

automatic_scaling:
  min_idle_instances: 2
  max_idle_instances: automatic
  min_pending_latency: 10ms
  max_pending_latency: 500ms
  max_concurrent_requests: 20

Это конфигурация очереди задач (у меня 10 очередей по 10 ресторанов в каждой)

- name: TaskRegOr00  
  rate: 10/s  
  bucket_size: 100

person Rene Marty    schedule 02.12.2015    source источник
comment
Я не единственный с этой проблемой... проверьте это: groups.google.com/forum/   -  person Rene Marty    schedule 03.12.2015


Ответы (1)


Похоже, это временная проблема с GAE, см. этот статус инцидента https://status.cloud.google.com/incident/appengine/15024?_ga=1.267668750.1284093861.1444800865

person Filip Nilsson    schedule 03.12.2015