检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
开通云运维中心 新用户首次登录云运维中心 COC,由于COC提供了对云服务资源的自动化运维、故障管理等能力,需要获得访问其他云服务的委托权限。COC需要创建名为ServiceLinkedAgencyForCOC和ServiceAgencyForCOC的委托。委托包含的权限可见表1以及表
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的
概述 随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演的方式,可以在现网问题发生前识别系统的薄弱点(软件
故障模式 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置
什么是云运维中心 云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。
一站式资源运维 实践场景 某电商运维人员在日常工作中发现,云上资源合规性问题突出,OS合规性风险尤为明显,引发客户对云上OS安全合规性担忧;需要周期性检查主机OS补丁的合规性情况,避免主机因为OS补丁缺失产生漏洞,导致业务受损。云上无统一的OS合规性管理和自闭环工具,合规性问题修复困难或求助华为侧协助解决
运维态势感知 云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。 预置接入