检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
P1:核心业务功能不可用,影响所有客户。 P2:核心业务功能受损,影响部分客户,客户核心业务受影响。 P3:非核心业务功能异常报错,影响部分客户业务。 P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。 P5:非系统业务异常,属于客户咨询、请求类问题。 说明 请填写业务影响和升降级理由。
Agreement)在业界常用于衡量服务质量,云运维中心的SLA管理功能为客户提供了工单时效管理能力,当工单触发某SLA规则时,COC会记录工单SLA触发详情,并通知客户及时跟进和处理。 SLA功能概要如下: 支持客户自定义SLA,或使用COC预置的公共SLA规则。 支持事件单/告警单/待办任务/问题单4类工单。
单击“发布”。 设置“发布通告”。 表2 发布通告参数说明 参数 说明 通报主题 自定义通报主题。 通报对象 可选项“排班”、“个人”。 排班:按照已配置的排班场景和角色在下拉列表选择。 单击“创建排班”可以配置排班,详细操作请参考排班管理。 个人:选择需要通报的用户。 单击“
变更管理 概述 变更日历 变更中心 变更配置 变更管控
SLA记录 操作场景 若客户账号下有启用状态的SLA规则,且有对应的工单触发SLA规则,则会在SLA记录页面生成一条记录,用户可以在此页面查看SLA记录详情,例如工单ID,SLA状态,SLA规则(公共SLA或者用户创建的自定义SLA)等。 查看SLA记录 登录COC。 在左侧菜单栏选择“基础配置
公共SLA 操作场景 公共SLA由系统为客户预置,开箱即用,默认为禁用状态,用户可根据需要启用/禁用。 查询公共SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”,进入“SLA管理”页面。 选择“公共SLA”页签,进入公共SLA列表界面。 图1 查看SLA列表 单
总览 为用户提供资源健康度、资源监控信息、安全概览、运维态势感知、系统公告等相关信息,呈现基于资源一站式的信息概览,同时您可通过总览页面右上角“自定义设置”灵活配置页面楼层的展示和排序。 运维概览 快速配置中心 资源看板 资源监控 优化顾问 安全评分 运维态势感知
场景分类 故障属于哪种场景,包括冗余、容灾、过载、配置、依赖。 发生条件 故障可能发生的条件。 预计故障现象 故障发生时的业务现象。 客户影响 故障造成的客户影响。 选择是否有应急预案。如果选择是,请输入应急预案名称搜索,选择对应的应急预案,如果没有合适的应急预案 可以选择直接创建一个
任务管理 执行记录 待办中心
P1:核心业务功能不可用,影响所有客户。 P2:核心业务功能受损,影响部分客户,客户核心业务受影响。 P3:非核心业务功能异常报错,影响部分客户业务。 P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。 P5:非系统业务异常,属于客户咨询、请求类问题。 事件类别 可选参数。在下拉列表选择事件的类别。
自定义故障报告的标题。 报告责任人 在下拉列表选择故障报告责任人。 故障现象 请填写故障的现象。 限制长度1-1000个字符。 影响客户 请填写受影响的客户。 限制长度1-1000个字符。 影响应用 请填写应用的影响描述。 支持添加和删除影响应用。 设置“处理过程”。 表2 处理过程参数说明
P1:核心业务功能不可用,影响所有客户。 P2:核心业务功能受损,影响部分客户,客户核心业务受影响。 P3:非核心业务功能异常报错,影响部分客户业务。 P4:非核心业务功能异常报障,业务时延增大、性能下降,客户体验下降。 P5:非系统业务异常,属于客户咨询、请求类问题。 事件类别 可选参数。在下拉列表选择事件的类别。
变更中心 创建变更单 审批变更单 实施及闭环变更单 父主题: 变更管理
PRR评审 概述 PRR模板管理 PRR评审管理 父主题: 韧性中心
300+的评估项,覆盖节点、集群、网络、容灾、容器、业务和数据等六种维度,针对以应用为粒度的资源进行韧性评估,帮助客户提前识别应用存在的风险并给出优化建议,支撑客户提升应用韧性,减少故障造成的影响。 应用韧性主要包含如下功能点: 评估/重新评估:能够自动对应用内支持的资源进行扫描
定时运维包含如下几项核心要素: 定时设置:单次执行,周期执行(设置简单周期或Cron表达式)。 任务类型:脚本,作业。 执行对象:目标实例,由客户自行选择。 定时运维使用限制 单个租户最多支持创建100个定时任务。 目标实例目前仅支持弹性云服务器(ECS),裸金属服务器(BMS)和云耀FlexusL实例三种类型。
资源批量操作 概述 批量ECS操作 批量RDS操作 批量FlexusL操作 批量BMS操作
韧性中心 混沌演练 应急预案 PRR评审 应用韧性评估
故障管理 诊断工具 告警管理 事件管理 WarRoom 改进管理 问题管理 流转规则 集成管理
板故障等)通过提前制定快速恢复应急预案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。