检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
所属应用 演练目标所属的应用 事件级别评估 参考事件中心 来源 包括主动分析,已有故障 应急预案名称 参考应急预案章节 场景分类 故障属于哪种场景,包括冗余、容灾、过载、配置、依赖 发生条件 故障可能发生的条件 选择是否有应急预案。如果选择是,请输入应急预案名称搜索,选择对应的应急预案,单击“保存“。
概述 改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
造成系统或应用程序崩溃、死机、系统挂起,或造成数据丢失,主要功能完全丧失,导致本模块或相关模块异常等。 严重: 系统主要功能部分丧失、数据不能保存,系统的次要功能完全丧失,问题局限在本模块,导致模块功能失效或异常退出。 一般: 次要功能未完全实现、但不影响使用,如提示信息不太准确,或用户界面差,操作时间长,模块功能部分失效等。
造成系统或应用程序崩溃、死机、系统挂起,或造成数据丢失,主要功能完全丧失,导致本模块或相关模块异常等。 严重: 系统主要功能部分丧失、数据不能保存,系统的次要功能完全丧失,问题局限在本模块,导致模块功能失效或异常退出。 一般: 次要功能未完全实现、但不影响使用,如提示信息不太准确,或用户界面差,操作时间长,模块功能部分失效等。
与会成员 操作场景 与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。 与会成员默认管理员为创建WarRoom设置的WarRoom管理员。 添加与会成员 登录云运维中心。
造成系统或应用程序崩溃、死机、系统挂起,或造成数据丢失,主要功能完全丧失,导致本模块或相关模块异常等。 严重: 系统主要功能部分丧失、数据不能保存,系统的次要功能完全丧失,问题局限在本模块,导致模块功能失效或异常退出。 一般: 次要功能未完全实现、但不影响使用,如提示信息不太准确,或用户界面差,操作时间长,模块功能部分失效等。
韧性中心常见问题 混沌演练是什么? 支持哪些攻击场景? 故障模式是什么? 演练规划主要做什么? 故障模式和演练任务的关系? 演练报告有哪些内容?
SLA记录,且产生业务中断的,则会自动生成中断记录,规则示例可参考告警单SLO中断记录;其余3类目前仅支持手动添加。 修正SLO中断记录,主要功能为通过修改中断记录中的“不可用起止时间”,自动计算不可用时长。 SLO中断记录 登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。
通知管理 操作场景 通知管理主要是提供变更、事件、问题等消息通知模板,满足不同阶段和场景的通知诉求。同时支持按需订阅通知,防止信息多,无法获取重要信息。 当产生事件单、问题单、告警单或有变更单时,通知规则会根据事件/问题/告警/变更信息和配置的通知规则进行信息匹配,解析出需要通知
如果您需要对您所拥有的COC的资源运维操作进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用ECS服务的其它功能。 默认情况下,新建的IA
最大长度:25 name String 脚本名称 最小长度:1 最大长度:64 version String 脚本版本号 约束条件 后期废除,不建议使用 最小长度:1 最大长度:16 description String 脚本描述 最小长度:1 最大长度:256 type String 脚本类型
PRR评审是一个管理过程,旨在确保产品立项、产品设计、产品上线的过程符合既定的质量标准和要求。在 PRR评审中,用户可以查看 PRR评审列表,并进行相关操作。 PRR评审的主要功能包括发起 PRR评审、 PRR模板管理。 PRR评审可以通过“发起 PRR评审”进入发起页面,填写基础信息如评审名称、描述、应用名称、应用责任人等,并选择相应的
与其他云服务的关联 云运维中心COC服务与其他服务的关系,如图1所示。 图1 与其他服务的关系 表1 与其他服务的关系 服务名称 与其他服务的关系 主要交互功能 安全云脑 总览页面中提供用户查看到账号下的安全监控信息。从安全评分、安全监控、安全趋势三个维度呈现安全概览,并支持自定义看板。 查看安全概览
管理方面需要改进完善的地方,通过改进单的方式跟踪闭环。 Global 问题管理 问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。
ame[:port]。端口缺省时使用默认的端口,https的默认端口为443。 否 使用AK/SK认证时该字段必选。 code.test.com or code.test.com:443 Content-Type 消息体的类型(格式)。推荐用户使用默认值application/j
包括租户委托首次同步租户RMS资源、查询租户的资源信息等 自动化运维 包括自定义脚本的创建、修改、删除、查询等 事件管理 包括事件的创建、处理、验证及查询 集成管理 主要为用户上报自监控系统的告警至COC 补丁管理 包括补丁管理合规性报告查询相关接口
应用韧性主要包含如下功能点: 评估/重新评估:能够自动对应用内支持的资源进行扫描检查,发现应用韧性方面存在的风险点;评估的类型有:节点、集群、网络、容灾、容器、业务和数据。 查看报告:提供应用的评估结果,展示评估过程中的涉及到的评估项以及存在的风险项,并给出优化建议。 使用前提 使
补丁基线不生效? 在使用补丁管理扫描或修复功能前,请确认创建的补丁基线已经设置为默认基线并且使用场景正确。 父主题: 补丁管理常见问题
DEFAULT:默认 SMS:短信 EMAIL:邮件 DING_TALK:钉钉 WE_LINK:welink WECHAT:微信 CALLNOTIFY:语言 NOT_TO_NOTIFY:不通知 枚举值: DEFAULT SMS EMAIL DING_TALK WE_LINK WECHAT CALLNOTIFY
云运维中心COC为全局服务,但在部分特殊区域(专属区域、HCSO等)暂不支持,如您有相关需求,请联系COC侧沟通处理。 在使用云运维中心COC时,您需注意以下使用限制,详见表1。 表1 云运维中心使用限制 功能模块 对象 使用限制 公共 补丁/脚本/作业/ECS操作 单个操作任务最多支持选择200台实例。 补丁/脚本/作业/ECS操作