检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等
清除告警-业务中断 生成SLO中断记录需要先设置对应的SLA规则、SLO规则,并且该告警存在对应的SLA记录。 输入备注,单击“确定”,清除告警。 备注可以包含中文字符、英文字母、数字及特殊字符组成,长度不超过100个字符。 父主题: 汇聚告警
演练规划 操作场景 创建演练规划时您可以指定执行人和计划演练时间,执行人通过接单来创建演练任务,演练任务关联故障模式和区域。 注意事项 演练规划所属的企业项目无需指定,和其关联的故障模式的企业项目保持一致 操作步骤 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“风险管理
Key):私有访问密钥。与访问密钥ID结合使用,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能
自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。
等待API结果 该原子动作可以用来等待目标对象达到预期的状态。如通过执行API原子动作调用ECS的StartServer接口后,再通过等待API结果原子动作调用ECS的ShowServer接口,直到接口响应中的状态变为ACTIVE,即状态为运行中,才判定ECS实例已经启动成功。 操作步骤
执行记录”页面,选择“资源操作工单”页签。 用户可以通过ID、工单类型、开始时间、状态进行搜索。 图1 资源操作工单列表 状态:已暂停、创建中、执行中、已取消、成功、异常 单击“ID”列对应的“资源操作工单ID”,可查询到对应工单详情。 当工单的状态是暂停状态时,单击“继续”,可以让工单继续。 当工单的状
自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 图7 选择分批策略 设置熔断策略。 熔断阈值:用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算
自动分批:用户选择的待执行机器,会根据默认规则,自动分成多批次。 手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 输入“熔断策略”。 用户可以设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。
“纪要录入”页签,可以查看待录入纪要的评审。 图7 PRR待录入纪要的评审 单击 “录入”,进入“PRR评审详情”页面,单击”录入评审结论”,可以进行评审纪要的录入。 图8 PRR详情-录入评审纪要 录入评审纪要。 图9 录入评审纪要 对于需要改进的检查项,可以添加改进事项,单击
同步资源 提供用户同步资源的能力,资源数据支持页面的条件过滤及字段显示控制。 资源:用户可以在云平台上使用的一种实体。例如:弹性云服务器(ECS)实例、云硬盘(EVS)磁盘、虚拟私有云(VPC)实例等。 同步资源操作:需要当前用户具有rms:resources:list权限。该权
完成配置 步骤五:演练报告 演练结束后可以创建演练报告 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”页面,可以查看演练任务列表。 图19 演练任务列表 找到需要查看的演练任务,单击“操作”列“演练记录”,进入演练记录列表。在演练记录列表操作列可以单击“创建报告”,或在操作列单
诉求。云运维中心的混沌演练功能支持用户配置演练模板、攻击模板,基于模板对物理机、虚拟机或CCE容器等进行故障演练。支持故障模式管理功能。您可以通过该功能对目标实例进行故障演练。 本章节介绍如何通过云运维中心操作一台弹性云服务器ECS进行CPU使用率加压的故障演练。 操作流程 操作步骤
标实例,单击“提交”。 图6 选择目标实例 选择“分批策略”: 自动分批:用户选择的待执行机器,会根据默认规则,分成多批。 手动分批:用户可以根据自身需要,将待执行的机器,分成若干批,控制机器所在的批次。 不分批:用户所有待执行的机器会全部在同一批次。 图7 选择分批策略 单击“
作业管理 作业是操作步骤(原子动作)的集合,一个作业可以包含一个或多个操作,例如重启ECS、执行脚本等。 作业管理提供对公共作业、自定义作业的创建、修改、克隆、删除等管理的能力以及在目标实例上执行作业的能力。通过作业管理,用户可以在目标实例执行定义好的特定操作步骤。 执行公共作业 创建自定义作业
是否存在。若存在,则"check_fault_status"函数可以正常返回(如exit 0);若不存在,则"check_fault_status"函数可以异常返回(如:exit 1)。 如果您已有自定义脚本,则可以在下方根据脚本名称选择脚本,就会将脚本内容和参数展示在页签中,填写合适的超时时间后,单击“下一步”。
维管理中已配置的仪表盘可以在云运维中心中进行展示。故障管理中,支持接入应用运维管理服务产生的告警,并在云运维中心中进行流转处理。混沌演练中,支持在演练过程中查看应用运维管理的指标数据。 应用监控 接入应用运维管理告警 演练监控 弹性云服务器 资源运维中,可以对弹性云服务器进行批量
填写资源相关信息,确认信息无误后上传。 图2 导入托管帐号 1、导入形式的ECS资源帐号密码不参与纳管改密,若想对导入的帐号进行自动纳管,可以编辑全局基线或者创建帐号基线来添加对应帐号,则系统会对这些主机帐号密码进行立即纳管。 2、导入形式的DCS、RDS和DMS资源不参与纳管改密,帐号密码无法完成自动纳管改密。
在左侧菜单栏选择“韧性中心 > 混沌演练”页面,选择“演练任务”页签。 单击“创建演练任务”,进入创建演练任务页面,也可以通过演练规划接单功能进入创建演练任务页面,具体步骤可以参考演练规划章节。 图1 创建演练任务 填写演练任务基本信息,包括演练任务名称和期望恢复时长,单位为分钟。 期望
ame(第一个*代表所有regionID,第二个*所有租户,name代表参数名称) 资源类权限决定您可以访问哪些数据,操作类权限是对您有的资源类权限进行操作,常见问题: 如果您可以访问某个参数,但是您访问不了列表页,代表您缺少coc:parameter:list权限 如果您找不到指定的参数,需要确认是否有该参数的权限