检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见故障模式 弹性伸缩失败 检测:查看弹性伸缩组的弹性伸缩活动历史。 恢复: 根据伸缩活动失败描述信息进行修复。 父主题: AS弹性伸缩
与 SLO 达成。可观测体系能够直接决定一些故障的恢复时长,如下图所示,MTTR 平均恢复时长由平均发现时长、平均定界时长和平均处置时长三部分构成,而可观测能决定的是发现时长和定界时长(经验值占比 1/2 左右)。在一个事件里,MTTR 的恢复时长越短,那么它的整体 SLO 达成可能性就越高。
OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS02-01 进行需求管理和迭代开发 OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 父主题: 卓越运营支柱
以及可能面临的挑战。并明确运营目标的关键绩效指标 (KPI),可能是客户满意度、TTM、平均问题解决时间等等。根据 KPI,识别关键指标和数据源。客户满意度可能是各种指标的组合,例如呼叫等待或响应时间、满意度评分以及提出的问题类型。 父主题: OPS08 度量运营状态和持续改进
RES08-02 依赖松耦合 系统内组件之间直接访问时,会产生紧耦合关系一个组件的状态变化会对其他组件产生直接影响,从而会导致所有组件的可用性均下降。而采用松耦合架构时,各个组件之间的依赖关系非常弱,它们可以独立地进行修改和扩展,而不影响其他组件;系统更加灵活,易于维护和升级,并且稳定性和可靠性也更强。
RES11-05 红蓝攻防 通过红蓝攻防,可以模拟各种复杂的攻击场景,帮助全面评估应用韧性,及时发现并解决潜在风险。 风险等级 高 关键策略 蓝军从第三方角度发掘各类脆弱点,并向业务所依赖的各种软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。
SEC10-04 安全事件演练 安全事件演练是一种模拟性的活动,旨在让组织成员在一个模拟的安全事件场景下进行实际操作和应对,以测试和提高其应对安全事件的能力。通过安全事件演练,组织可以评估其安全事件响应计划的有效性,发现潜在的问题并进行改进,提高团队的准备性和反应能力。 风险等级
COST05-03 定期回顾和审核 风险等级 高 关键策略 为了让云上应用始终最具成本效益,推荐您定期对其进行回顾和审核,以了解是否有机会实施新的优化措施。 回顾和审核可以基于成本分配的原则,在应用级别执行,持续审核组织为每个云上应用付出的总体成本。通过综合考虑云资源成本,研发成本,运营管理成本(如托管服务
OPS06-06 实施分布式跟踪 Trace是一系列因果相关的分布式事件的表示,这些事件编码了流经分布式系统的端到端请求流。 风险等级 高 关键策略 当系统出现问题时,需要能够追踪系统中每个组件的行为和交互情况。通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。 设计建议
理、成本分析等可视化工具的数据中。 您还可以使用成本单元,综合多种条件(产品类型、账单类型、关联账号、企业项目、成本标签),自定义规则,将成本按照业务语义分配到有意义的分组。基于成本单元的成本分配结果,支持在“成本分析”页面可视。 如果需要获取明细数据与自身云管平台进行集成,实现
COST07-02 释放闲置资源 风险等级 中 关键策略 持续监控资源的闲置情况(如ELB无流量,EVS盘无挂载,EIP没有绑定到虚机),释放资源,或者监控资源使用只是在某个固定的时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为
SEC03-04 安全共享资源 大企业的不同组织、部门、团队之间需要安全共享资源。 风险等级 中 关键策略 大企业往往涉及多个组织单元、多个账号,需要对多账号之间进行共享资源。安全共享资源需遵循以下实践: 使用资源标签。通过标签对资源进行分类和标记,以便于管理和应用策略。 仅与可
客户反馈对于任何组织都至关重要,我们非常重视客户声音及客户满意度,并将其视为我们持续改进的指南。我们会定期收集和分析客户的反馈,将客户反馈纳入技术基准和持续优化流程,了解客户的需求和期望的变化,以便我们可以根据客户的需求和期望进行优化,并相应地调整性能目标。 父主题: 性能规划
RES01-03 云服务器反亲和 应用内相同业务的ECS需要分散到多台物理服务器,避免运行到同一台物理服务器上,当发生这种情况时,可能会由于一台物理服务器故障而导致业务中断。 风险等级 高 关键策略 针对多个承载相同业务的ECS,需要配置主机组反亲和,从而可以将相同业务的ECS调
RES15-02 自动化检查 在部署或升级过程中集成基本测试功能,实现自动化检查,无需人工参与。 风险等级 高 关键策略 在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升
RES15-04 灰度部署和升级 原地升级和回滚时,升级和回滚过程中业务将会中断,中断时长受限于升级和回滚的时长,对业务影响比较大;而采用灰度部署和升级,可减少升级和回滚过程中的业务中断,提升系统可用性。 风险等级 高 关键策略 通过金丝雀部署、蓝绿部署等方式实现灰度升级或部署,
SEC06-04 应用安全配置 对应用运行时的各项配置进行加固,以避免因安全配置错误而产生的安全漏洞和风险。 风险等级 高 关键策略 根据安全配置规范,对您工作负载中的应用,如Nginx、Tomcat、Apache、Jetty、JBoss、PHP、Redis等完成安全配置加固和Web攻击防护。
SEC10-01 建立安全响应团队 建立安全事件响应团队,明确各角色与职责。 风险等级 高 关键策略 安全事件响应团队一般包含如下角色及职责: 安全响应专家:主导网络安全事件调查,负责对事件进行定级、通报、攻击溯源以及确定影响范围,制定应急处置措施,推动服务控制风险。 攻击溯源专
RES12-02 制定应急预案 针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。
常见故障模式 ELB的并发连接数/新建连接数/带宽使用率过高 检测:通过CES监控ELB的并发连接数/新建连接数/带宽使用率。 恢复: 根据业务情况,采用独享型负载均衡器,并手工调整ELB负载均衡器规格。 父主题: ELB弹性负载均衡