• [新闻直播间]我国不动产登记体系全面运行 为什么实行不动产统一登记? 2019-08-24
  • 食疗-热门标签-华商生活 2019-08-24
  • SRE 超载系统导致,谷歌发布宕机事故分析报告

    h4cd
     h4cd
    发布于 2019年03月15日
    收藏 11

    谷歌发布了 12 日大面积服务中断事故的分析报告,指出系 SRE 超载系统使得 Google 云存储错误率提高导致。

    12 日全球各地的许多用户反映使用 Gmail、YouTube、Google Drive、谷歌音乐与谷歌的其它服务时都遇到了问题,包括北美洲、南美洲、欧洲和亚洲的部分地区都受到影响,谷歌随后承认出现故障,谷歌云平台状态页面(Google Cloud Status Dashboard)显示,此次故障影响了谷歌云存储的所有区域。

    当地时间 14 日,谷歌发布了针对该事件的分析报告。

    谷歌表示内部 blob(大型数据对象)存储服务经历了 4 小时 10 分钟的服务中断。分析了根本原因,其指出在 3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;3 月 12 日,为了减少资源使用,SRE 进行了配置更改,其副作用是使系统的关键部分超载以查找 blob 数据的位置,而增加的负载最终导致级联故障。

    更具体的,12 日 18:40 到 22:50,谷歌内部 blob 存储服务错误率提高,平均错误率为 20%,事件发生时错误率为 31%,用户可见的 Google 服务,包括使用 blob 存储服务的 Gmail、照片和 Google 云硬盘错误率也提高了,如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响,那么后果会更加严重。

    此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。

    谷歌表示非 Google 云平台服务受到的影响将会有单独的事件报告。

    对于因此事件受到影响的服务与应用客户,谷歌深表歉意,并表示正在采取措施以提高可用性并防止此类中断再次发生。

    详情查看:https://status.cloud.google.com/incident/storage/19002

    本站文章除注明转载外,均为本站原创或编译?;队魏涡问降淖?,但请务必注明出处,尊重他人劳动共创开源社区。
    转载请注明:文章转载自 OSCHINA 社区 六开彩开奖结果20119
    本文标题:SRE 超载系统导致,谷歌发布宕机事故分析报告
    加载中

    精彩评论

    TGVvbmFyZA
    TGVvbmFyZA
    SRE(Site Reliability Engineering) 已經不 Reliability 了嗎?

    最新评论(3

    姓肖名平
    姓肖名平
    感觉完全看不懂。。。
    G7
    G7
    这么专业的报告,用户看得懂吗?
    TGVvbmFyZA
    TGVvbmFyZA
    SRE(Site Reliability Engineering) 已經不 Reliability 了嗎?
    返回顶部
    顶部
  • [新闻直播间]我国不动产登记体系全面运行 为什么实行不动产统一登记? 2019-08-24
  • 食疗-热门标签-华商生活 2019-08-24
  • 排列3预测专家千里马 中超比赛 福彩时时彩三星走势图 大中电器 官网 体育彩票怎么玩法介绍 777娱乐游戏城 时时彩开奖视频助手 体彩北京11选五中3个 极速快3彩票 湖南快乐十分一定牛 期特码金手指 广东快乐十分分析高手 幸运赛车开奖结果官方 网赌有赢钱的吗 学生怎么利用网络挣钱