检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 Global 变更管理 变更中心主要承载变更流程管理业务,以变更工单模式,从变更的申请、审批、执行三个大环节管控变更业务,为变更人员、变更管理人员提供统一管理平台。 Global 混沌演练 用户可配置演练模板、攻击模
事件信息 变更管理 变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋
根据页面提示,设置新增的影响应用信息。 单击“确定”完成添加。 图1 新增影响应用 在主屏可以看到添加的应用,支持填写故障开始时间、恢复时间及故障描述。提交后该应用的状态会变为恢复状态。 受影响应用支持执行应急预案快速恢复故障、同时可以查看该应用的告警、事件和变更信息。 图2 影响应用页面 父主题: WarRoom
自动化运维引用参数中心的参数 获取服务器密码对 ecs:serverKeypairs:get 重装、切换操作系统,设置密码对 获取服务器密码对列表 ecs:serverKeypairs:list 重装、切换操作系统,查询密码对列表 批量关闭云服务器 ecs:cloudServers:stop 资源运维中批量关闭云服务器
到达设定的解除挂起时间自动解除挂起。 问题填写定位结果时,若选择需要变更,问题单状态为“待现网实施”,待现网实施页面需要关联变更单,变更单有回填结果,才能流转至下个步骤。 无需变更的问题或需要变更的问题已有变更结果,问题状态为“待验证”,创建人确认问题是否解决或未解决,未解决可进行驳回。
风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。 确定性故障管理
Production Readiness Review 生产就绪程度评估基线。 从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。
排班场景概述 排班管理中可以设置多种排班,一个排班场景即是一种排班的集合。创建排班场景时,您需要选择对应的排班方式,排班维度。根据您的选择,后续设置排班的方式也会有所区别。 场景角色概述 场景角色是设置排班时的最小单位,一个排班场景中可以创建多个排班角色,在设置排班时可以对每个角色设置不同的值班人。
批量FlexusL操作 FlexusL操作为用户提供了管理Flexus L实例的能力,支持进行批量开机、关机、重启、重装操作、切换操作。 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 父主题: 资源运维
批量ECS操作 ECS操作为用户提供了管理ECS实例的能力,支持进行批量开机、关机、重启、切换操作系统、重装操作系统等操作。 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 父主题: 资源运维
资源全生命周期管理,提供资源定义、申请、发放、运维、变配&续期、回收等全生命周期管理,构筑资源管理驾驶舱。 变更风控&作业可信,融合华为SRE安全生产最佳实践的变更管控模型,助力客户作业可信和稳定可靠。 标准化故障管理,加持WarRoom作战驾驶舱,实现故障高效协同和快速恢复。
转至填写问题原因及解决方案页面,填写信息后点击提交。 图1 填写问题解决方案 解决方案详情页面中若选择需要变更,区域是必填项,问题单走到待现网实施阶段,需要涉及区域关联变更单,具体操作请参考待现网实施章节。 父主题: 处理问题
云运维中心当前仅有部分操作支持按照企业项目授权,可以参考表1创建自定义策略。 表1 支持企业项目鉴权的操作 操作 描述 coc:instance:reinstallOS 授予重装弹性云服务器操作系统的权限。 coc:instance:changeOS 授予切换弹性云服务器操作系统的权限。 coc:instance:start
账号集中运维能力。 图2 资源全生命周期管理 变更风控&作业可信 融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查能力,从事前、事中、事后逐层拦截变更风险,实现全方位运维作业可信。 AI加持风险评估
批量操作常见问题 批量ECS资源切换镜像报错如何处理? 父主题: 资源运维常见问题
流程管理支持自定义事件、问题的级别和描述,同时支持配置事件或问题升降级,暂停的审批配置。按照公司事件和问题管理流程制定级别的类别。 事件流程 问题流程 变更场景 父主题: 基础配置
点击问题单名称进入问题详情页面,单击右上角“升降级”,页面会显示问题挂起弹窗页面,并填写挂起信息。 图1 问题升降级 当前升降级暂不需要审批,填写后问题单级别会变更。 父主题: 处理问题
issues inc_type_p_ohter_issues 其他 ohter issues inc_type_p_change_issues 变更操作问题 Change operation problem 父主题: 事件相关枚举信息
入门 以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练 04 API 您可以使用本文档提供的API对COC进行相关操作,例如脚本工单的查询、自定义脚本的增/删/改/查/执行等。 API文档 API概览 如何调用API
如果您需要对您所拥有的COC的资源运维操作进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用ECS服务的其它功能。 默认情况