检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
成长地图 | 华为云 云运维中心 云运维中心(Cloud Operations Center)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供故障管理、批量运维、混沌演练等核心特性,实现在安全合规的前提下,云上运维效率提升。 产品介绍
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
0021","message":"Failed to check Cinder quotas because the number of Gigabytes exceeded the upper limit."或 CreateRootVolumeTask-fail: call evs api
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
参数说明 参数名称 参数说明 待办名称 必选参数。 只能由中文字符、英文字母、数字及“_”、“-”、“.”组成,长度不超过255字符。 以中文字符、英文字母、数字开头 不能以“.”结尾 待办描述 必选参数。 可输入中文字符、英文字母、数字及特殊字符,长度不超过1000字符 类型 必选参数。
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点
"execute_costs": 20842, "creator": "xxxxxxxxxxxcontainer1", "status": "CANCELED", "properties":
"password": "********", "domain": { "name": "domainname" } }
案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC
服务韧性 COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容
登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击操作列“查看报告”。 查看最新的评估报告详情。 1. 评估报告详情中,给出了识别到的风险项,并给出优化建议。 2. 若您认为部分风险项可以不进行优化,则可在查看评估报告详情中,点击“忽略风险”按钮,将其忽略。 父主题:
请填写故障发生的时间。 故障恢复时间 仅业务是否中断选择“是”时需要设置。 请填写故障的恢复时间。 备注 可选参数。请填写备注。 备注支持中文字符、英文字母、数字及特殊字符,长度不超过100个字符。 从故障发生到故障恢复所需时间称为业务中断时间。云运维中心支持将清除告警填写的业务中断时间
COC应用韧性评估基于华为最佳实践经验,定义了300+的评估项,覆盖节点、集群、网络、容灾、容器、业务和数据等六种维度,针对以应用为粒度的资源进行韧性评估,帮助客户提前识别应用存在的风险并给出优化建议,支撑客户提升应用韧性,减少故障造成的影响。 应用韧性主要包含如下功能点: 评估/重新评估:能够自动对应用内支
故障处理过程中如果需要增加相关成员并拉入群组,请参考与会成员操作。 故障处理过程中如果需要发布通告将故障处理进展及时同步给相关人员,请参考进展通告操作。 故障处理过程中如果识别到一些产品、运维或管理改进事项,可以创建改进单,并通过改进管理处理。 前提条件 需要有正在处理的事件单,在事件处理页面启动WarRoom。
String 严重性级别 compliance_level String 合规性级别 patch_detail PatchDetail object 补丁详情 表5 PatchDetail 参数 参数类型 描述 installed_time Long 安装时间 patch_baseline_id
某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“
Domain", "iam:roles:createRole", "iam:groups:listGroups", "iam:permissions:listRoleAssignments", "iam:permissions:grantRoleToGroupOnDomain",
coc:parameter:* 自动化运维引用参数中心的参数 获取服务器密码对 ecs:serverKeypairs:get 重装、切换操作系统,设置密码对 获取服务器密码对列表 ecs:serverKeypairs:list 重装、切换操作系统,查询密码对列表 批量关闭云服务器 ecs:cloudServers:stop
变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。 风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变
作业控制编排成自定义作业。 定时运维:定时运维向客户提供了定时或周期性的向特定实例执行特定脚本或者作业的功能。 核心优势 动态识别:OS合规性风险动态识别。 资源自动发现和纳管。 安全生产:执行运维操作时,自动分批、爆炸半径评估等。 自动预警:短信、邮件、企业微信等自动通知。 前提条件