检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC05 运行环境安全 SEC05-01 云服务安全配置 SEC05-02 实施漏洞管理 SEC05-03 减少资源的攻击面 SEC05-04 密钥安全管理 SEC05-05 证书安全管理 SEC05-06 使用托管云服务 父主题: 基础设施安全
OPS06 可观测性体系 OPS06-01 建立可观测性体系 OPS06-02 定义可观测对象 OPS06-03 制定和实施可观测性指标 OPS06-04 规范化应用日志 OPS06-05 实施依赖项遥测 OPS06-06 实施分布式跟踪 OPS06-07 通过可观测性指标引入自动化措施
RES07-01 定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题: 故障全面检测
指标 概念解读 性能 性能是指软件系统或软件对应其及时性要求的符合程度。及时性用响应时间或吞吐量来衡量。 响应性 响应性是系统实现其响应时间或吞吐量目标的能力。 响应时间(RT) 用户感受系统为其服务所耗费的时间。不同业务系统的响应时间期望值不同,如互联网业务多为500ms以下、金融业务1s以下等。
包括事件发生的时间、地点、责任人、事件的过程、原因、影响等。 组建复盘团队:邀请相关的团队成员和利益相关者参与复盘过程。确保涵盖各个关键领域的代表,如技术人员、安全运营人员等。 分析根本原因:通过结果追溯分析事件的根本原因,连续问几个为什么,找出导致事件发生的最根本的问题。这有助于避免将来类似事件的发生。
预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快速结束业务中断对客户的影响,然后再启动问题定位和修复处理流程,以减少业务中断时间。 组织协调:故障发生后,应急恢复主席需要迅速组织相关人员快速恢复业务。
故障全面检测 高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
当系统某个单元发生故障时,如果不采取措施,故障可能会大规模扩散,从而造成整个系统失效。故障隔离技术的核心思想是将一个工作负载内的故障影响限制于有限数量的组件内,降低故障影响范围,防止产生级联故障。 通过划分故障隔离域,限制工作负载的影响,可有效进行故障隔离。 RES10-01 应用控制平面与数据平面隔离 RES10-02
电商类应用典型部署架构(99.99%) 电子商务类应用用于外部客户,需要提供较高的可用性,并能承受组件故障,其可用性目标通常要求达到99.99%,即每年故障时间可以为52.56分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断3次,每次应急恢复决策时长为10分
SEC07 通用数据安全 SEC07-01 识别工作负载内的数据 SEC07-02 数据保护控制 SEC07-03 对数据操作实施监控 SEC07-04 静态数据的加密 SEC07-05 传输数据的加密 父主题: 数据安全与隐私保护
COST06 使用不同计费模式优化成本 COST06-01 了解云上不同计费模式的特点 COST06-02 为工作负载选择合适的计费模式 COST06-03 跟踪并监控权益商品的使用情况 父主题: 成本优化支柱
全生命周期性能管理 全生命周期性能管理围绕需求、设计、开发、测试与编护完整的软件生周期展开,将性能活动内化到生命周期流程中,实现性能工作的常态化。 PERF01-01 全生命周期性能管理 父主题: PERF01 流程与规范
SEC02 身份认证 SEC02-01 对账号进行保护 SEC02-02 安全的登录机制 SEC02-03 安全管理及使用凭证 SEC02-04 一体化身份管理 父主题: 基础设施安全
高可用设计 具有高可用的系统必须避免单点故障,以防由于某个节点故障而导致整个系统不可用。 RES01 冗余 RES02 备份 RES03 跨AZ容灾 RES04 跨Region/跨云容灾 RES05 网络高可用 父主题: 韧性支柱
SEC04 网络安全 SEC04-01 对网络划分区域 SEC04-02 控制网络流量的访问 SEC02-03 网络访问权限最小化 父主题: 基础设施安全
SEC03 权限管理 SEC03-01 定义权限访问要求 SEC03-02 按需分配合适的权限 SEC03-03 定期审视权限 SEC03-04 安全共享资源 父主题: 基础设施安全
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
提高关键依赖项的冗余级别,降低该关键组件不可用的可能性。 与依赖项的通信采用异步消息并支持超时重试,或发布/订阅消息功能将请求与响应分离,以便依赖项从短时故障中恢复。 依赖项长时间无法访问时,应用程序应能继续执行其核心功能,以便将局部故障对整体系统功能的影响减到最小。如所依赖的数据丢失
避免影响可用性。典型场景如产品促销前预测会有突发大流量,则可手工进行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13
RES06 故障检测 RES06-01 故障模式分析 RES06-02 面向所有故障进行检测 RES06-03 支持亚健康检测 父主题: 故障全面检测