检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询服务的终端节点。 父主题: 使用前必读
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。 父主题: PRR评审
生成事件的流程是什么? 生成事件有三种方式:手动创建事件、告警转事件和通过流转规则自动生成事件,具体介绍如下。 手动创建事件 在故障管理>事件管理创建事件单,具体操作详见创建事件单。 告警转事件 在故障管理>事件管理创建事件单,具体操作详见告警转事件。 流转规则自动生成事件 流转规则自动生成事件,需要做以下步骤:
智能关联资源 提供用户通过企业项目和标签的形式,将企业项目下的相同标签资源创建至同一资源分组内进行管理。 操作场景 通过Cloud Operations Center关联资源到应用下的指定分组中。 注意事项 只有单击对应分组上,智能关联资源按钮才能生效。 触发智能关联资源后,请您
常规变更&紧急变更的区别? 概念上的区别 常规变更(指非紧急、能通过正常程序化的申请、评估、批准、排序、计划、测试、实施和回顾的变更)。 紧急变更(为了处理生产环境不可用或机器不可用、紧急满足业务需求而提出的计划外变更,无法满足计划性要求,或者来不及走正常流程进行评估审批的变更)。
获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects":
行响应预案”跳转至“执行响应预案”页面。 告警转事件、手动创建事件单和流转规则生成事件单未关联响应预案的时候,可创建应急预案、脚本或作业。 图2 事件处理执行响应预案 若响应预案为“作业”和“脚本”,核实作业和脚本信息后,单击“提交”。 图3 执行作业或脚本页面 若响应预案选择了
创建变更单 填写变更单基本信息和变更配置。 图2 填写变更单基本信息 填写变更方式,支持选择作业或上传变更指导书,作业执行可参考自动化运维。 图3 填写变更方式 1、变更类型 常规变更(指非紧急、能通过正常程序化的申请、评估、批准、排序、计划、测试、实施和回顾的变更); 紧急变更(为
排班方式:排班的方式,可选择“固定班次”和“轮班(周一 -- 周日)”。 固定班次:对人员进行固定排班管理,直接为排班角色设置相应的人员。 轮班(周一 -- 周日):对人员进行轮班管理,可根据轮班规则,按照时间生成对应的排班 排班维度:排班的影响范围,可选择“应用排班”和“全局排班”。 全局排班
填写审批配置内容 1、填写基本信息 一次仅支持对一种变更类型配置,可同时对多个变更级别配置 2、审批配置 审批名称自动生成 审批人通过排班场景和排班角色决定 审批方式:一人通过 或 全部通过 3、支持添加多个审批环节 注:排班角色需配置具体的审批人才可生效,未配置审批人变更申请将无法提交成功。
Cron表达式使用 Cron表达式是一种用于指定定时任务的时间表达式,常用来指定任务的执行时间、执行频率和执行间隔。它由6个字段组成,分别表示秒、分、时、日期、月份、星期。 域取值 表1 Cron表达式域取值 域 允许的数值 允许的特殊字符 备注 秒 0~59 不支持 无 分 0~59
问题被创建后状态为“未受理”,未受理状态可对问题单受理、驳回或转发责任人。 问题受理后状态为“定位出方案中”,定位出方案中状态可对问题单填写问题定位结果信息、转发责任人、升降级和挂起。 问题单挂起后需要创建单人审核,审批通过后状态为“挂起”,挂起后问题单可手动解除挂起或到达设定的解除挂起时间自动解除挂起。 问题填写定
比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。
COC提供了管理员/非管理员账号重置密码的公共脚本,通过该脚本实现重置密码效果,不会重启实例,您可通过执行相应的公共脚本来重置实例(目前支持ECS和BMS资源类型)的密码。 图1 执行重置密码公共脚本 您在COC中执行公共脚本时,需要选择实例,而能够选择到实例的前提条件为: 您的资源实例
返回结果 状态码 请求发送以后,您会收到响应,其中包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应
理流畅度和运维效率。 资源管理驾驶舱:从全局视角实现用户资源可视化管理,支持多云和跨账号集中运维能力。 图2 资源全生命周期管理 变更风控&作业可信 融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查