«Мы сожалеем»: Google рассказала, почему сломала половину интернета
Компания признала ответственность за масштабный сбой, который временно обесточил значительную часть интернета. В облачной инфраструктуре компании произошел технический инцидент, затронувший популярные сервисы — от Spotify и Snapchat до OpenAI и Google Workspace
Согласно отчету Google, причиной стало автоматическое обновление квоты в системе управления API, вызвавшее ошибку 503 во множестве приложений и сервисов. Это обновление распространилось по глобальной инфраструктуре и привело к массовому отказу при выполнении внешних запросов.
В компании признали, что пострадали не только собственные продукты вроде Gmail, Google Meet и Drive, но и сторонние платформы, использующие Google Cloud, включая Shopify, Discord, GitHub и Character.ai.
По оценке Downdetector, число зафиксированных инцидентов превысило 13 000. Проблему удалось частично устранить в течение двух часов — благодаря отключению проверки квоты. Однако в одном из регионов (us-central1) восстановление затянулось из-за перегруженности базы данных.
Руководитель Google Cloud Томас Куриан позднее извинился за инцидент, отметив, что инженеры оперативно выявили и устранили источник проблемы. Компания пообещала в ближайшие дни опубликовать расширенный технический отчет с анализом сбоя и мерами по недопущению повторения.
Среди шагов, которые Google уже анонсировала: предотвращение сбоев API из-за поврежденных метаданных; запрет на глобальное развертывание обновлений без проверки и мониторинга и улучшение обработки критических ошибок в системе.
Читать на dev.by