检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
传统ITIL流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。通过云运维中心的资源管理功能可以将华为云、友商云核心资源和IDC离线资源统一管理,为变更管理、批量运维等功能提供准确、及时、一致的资源配置数据。 父主题: 资源管理
现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 您可以在快速配置中心完成云运维中心配置和云服务配置: 云运维中心配置:涵盖资源应用管理、自动化运维、故障管理、变更管理、混沌演练5个场景的配置任务,您可以根据自身需要,按场景完成各项配置任务,配置完成后,即可在云运维中心对应场景中进行相关运维操作。
自动筛选选择对象的告警信息。 图6 告警列表 选择应用拓扑右侧“变更”页签,查看应用变更,列表展示变更时间范围在右侧时间轴内的变更。 图7 变更列表 选择应用拓扑右侧“故障诊断”页签,点击“创建诊断”按钮后,可以对应用的DCS、RDS、DMS资源进行诊断。支持选择左边拓扑对象后,自动筛选选择对象的诊断信息。
及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 Global 变更管理 变更中心主要承载变更流程管理业务,以变更工单模式,从变更的申请、审批、执行三个大环节管控变更业务,为变更人员、变更管理人员提供统一管理平台。 Global 混沌演练 用户可配置演练模板、攻击模
事件信息 变更管理 变更管理包含数据概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更时长、成功率、自动化变更率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级、变更方式等分布图,分析变更导致的故障和变更成功率。变更开销统计变更人力和时间趋
自动化运维引用参数中心的参数 获取服务器密码对 ecs:serverKeypairs:get 重装、切换操作系统,设置密码对 获取服务器密码对列表 ecs:serverKeypairs:list 重装、切换操作系统,查询密码对列表 批量关闭云服务器 ecs:cloudServers:stop 资源运维中批量关闭云服务器
BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机 批量重启 批量重装操作系统 批量切换操作系统 执行命令 弹性云服务器 ECS √ √ √ √ √ √ 云数据库 RDS
到达设定的解除挂起时间自动解除挂起。 问题填写定位结果时,若选择需要变更,问题单状态为“待现网实施”,待现网实施页面需要关联变更单,变更单有回填结果,才能流转至下个步骤。 无需变更的问题或需要变更的问题已有变更结果,问题状态为“待验证”,创建人确认问题是否解决或未解决,未解决可进行驳回。
风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。 确定性故障管理
概述 云运维中心提供应用能力对资源进行分组管理,用于管理云服务对象与应用之间的关系,包含华为云、友商云核心资源和IDC离线资源,为混沌演练、变更管控、账号管理等功能提供统一可靠的资源分组信息。层次结构遵循“应用 + 子应用(可选)+ 组件 + 分组”的应用管理模型。 父主题: 应用管理
服务的委托。委托用于支持COC服务切换到管理员身份,即保证COC服务可以通过该委托获取到管理员租户的临时安全凭证; 执行账号委托:执行账号(组织中的成员租户)信任COC服务和管理员的委托,必须是IAM 5.0版本的信任委托。委托用于支持管理员切换到执行账号身份进行作业工单创建以及
Production Readiness Review 生产就绪程度评估基线。 从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度,对服务可用性及运维能力提出基线要求,在服务产品开发前端构筑能力,进行相关需求规划、设计和开发工作,并在服务上线前进行生产准入审视。
根据页面提示,设置新增的影响应用信息。 单击“确定”完成添加。 图1 新增影响应用 在主屏可以看到添加的应用,支持填写故障开始时间、恢复时间及故障描述。提交后该应用的状态会变为恢复状态。 受影响应用支持执行应急预案快速恢复故障、同时可以查看该应用的告警、事件和变更信息。 图2 影响应用页面 父主题: WarRoom
排班场景概述 排班管理中可以设置多种排班,一个排班场景即是一种排班的集合。创建排班场景时,您需要选择对应的排班方式,排班维度。根据您的选择,后续设置排班的方式也会有所区别。 场景角色概述 场景角色是设置排班时的最小单位,一个排班场景中可以创建多个排班角色,在设置排班时可以对每个角色设置不同的值班人。
资源全生命周期管理,提供资源定义、申请、发放、运维、变配&续期、回收等全生命周期管理,构筑资源管理驾驶舱。 变更风控&作业可信,融合华为SRE安全生产最佳实践的变更管控模型,助力客户作业可信和稳定可靠。 标准化故障管理,加持WarRoom作战驾驶舱,实现故障高效协同和快速恢复。
转至填写问题原因及解决方案页面,填写信息后点击提交。 图1 填写问题解决方案 解决方案详情页面中若选择需要变更,区域是必填项,问题单走到待现网实施阶段,需要涉及区域关联变更单,具体操作请参考待现网实施章节。 父主题: 处理问题
启动ECS操作系统 可以对ECS实例执行单独或批量开机的操作。 重启ECS操作系统 可以对ECS实例执行单独或批量重启的操作。 切换ECS操作系统 可以对ECS实例执行单独或批量切换操作系统的操作。 关机ECS操作系统 可以对ECS实例执行单独或批量关机的操作。 重装ECS操作系统 可以对ECS实例执行单独或批量重装的操作。
云运维中心当前仅有部分操作支持按照企业项目授权,可以参考表1创建自定义策略。 表1 支持企业项目鉴权的操作 操作 描述 coc:instance:reinstallOS 授予重装弹性云服务器操作系统的权限。 coc:instance:changeOS 授予切换弹性云服务器操作系统的权限。 coc:instance:start
账号集中运维能力。 图2 资源全生命周期管理 变更风控&作业可信 融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查能力,从事前、事中、事后逐层拦截变更风险,实现全方位运维作业可信。 AI加持风险评估
批量操作常见问题 批量ECS资源切换镜像报错如何处理? 父主题: 资源运维常见问题