SRE 超载系统导致，谷歌发布宕机事故分析报告

　行业新闻

　热门内容

当前位置:首页 > 新闻中心 > 行业新闻 >

SRE 超载系统导致，谷歌发布宕机事故分析报告

点击次数:2019-03-15 09:12:11【打印】【关闭】

12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题，包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响，谷歌随

12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题，包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响，谷歌随后承认出现故障，谷歌云平台状态页面（Google Cloud Status Dashboard）显示，此次故障影响了谷歌云存储的所有区域。

当地时间 14 日，谷歌发布了针对该事件的分析报告。

谷歌表示内部 blob（大型数据对象）存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因，其指出在 3 月 11 日，Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加；3 月 12 日，为了减少资源使用，SRE 进行了配置更改，其副作用是使系统的关键部分超载以查找 blob 数据的位置，而增加的负载最终导致级联故障。

更具体的，12 日 18:40 到 22:50，谷歌内部 blob 存储服务错误率提高，平均错误率为 20％，事件发生时错误率为 31％，用户可见的 Google 服务，包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了，如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响，那么后果会更加严重。

此次事故中，重大的影响包括：Google 云存储的长尾延迟较高，平均错误率为 4.8％，所有存储桶位置和存储类都受到影响，依赖于云存储的 Google 云平台服务也受到影响；Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5％的错误率，最近的时间序列数据可用，警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率，在获取 blob 数据时达到峰值 21％，App Engine 部署出现了高达 90％的错误，从 App Engine 提供静态文件也会出现错误率提升。

谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

对于因此事件受到影响的服务与应用客户，谷歌深表歉意，并表示正在采取措施以提高可用性并防止此类中断再次发生。

上一篇：宁波企业将牵头制定中央电暖系统标准下一篇：我国建成首套应用于南极地区的新能源微网供电系统

SRE 超载系统导致，谷歌发布宕机事故分析报告

浏览相关内容: