检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全链路故障诊断 操作场景 当事件创建后,您可以通过全链路故障诊断,快速定位故障根因。我们面向客户应用提供应用层、组件层、资源层的关系拓扑,实现基于资源和应用告警的异常染色,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。 确保已接入CES监控,请到集成管理进行配置。
产品优势 一站式运维平台 提供集成式运维能力,支持集中管控和运维。 ITSM、ITOM、专家服务相互协同,形成合力。 无需多平台间跳转,站内闭环,夯实一站式体验。 一体化解决方案 化零为整,原子化运维能力实现有机融合。 沉淀华为云运维专家经验,提供场景化运维解决方案。 安全生产、
项目的ID 图9 查看项目 图10 获取项目ID 填写执行基本信息,包含执行描述和标签。可按照标签管理中的步骤创建标签。 图11 填写执行基本信息 选择作业在目标实例的执行模式,分为“所有步骤一致”和“每个步骤独立”两种。 表1 目标实例模式说明 目标 说明 所有步骤一致 本作业涉及的所有步骤将按顺序在目标实例执行
COC提供了管理员/非管理员账号重置密码的公共脚本,通过该脚本实现重置密码效果,不会重启实例,您可通过执行相应的公共脚本来重置实例(目前支持ECS和BMS资源类型)的密码。 图1 执行重置密码公共脚本 您在COC中执行公共脚本时,需要选择实例,而能够选择到实例的前提条件为: 您的资源
比、趋势图和Top /Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。回溯改进中包含回溯改进的闭环率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。
自定义脚本”和“公共脚本”。 图4 关联自定义脚本 图5 关联公共脚本 若选择作业为处理方式,关联作业可以选择“自定义作业”和“公共作业”。 图6 关联自定义作业 图7 关联公共作业 若选择“文档预案”,处理方式可以选择“不涉及”、“脚本”和“作业”,填写步骤名称和步骤描述,单击“保存”,完成创建应急预案。
单击“确认”。 表1 编辑IDC离线资源参数说明表 参数 说明 示例 设备名称 设备名称,必填项 测试设备 设备SN 设备SN,必填项 -- 内网IP 内网IP,必填项 192.168.1.1 设备类型 设备类型,必填项 -- 设备厂家 设备厂家,必填项 -- 操作系统 操作系统(LINUX、WINDOWS),必填项
提供用户创建应用的能力,便于按业务逻辑单元进行资源管理。 操作场景 通过Cloud Operations Center创建应用。 注意事项 同一个应用下不能同时存在子应用和组件。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理 > 应用资源管理”,进入“应用资源管理”页面,选择“应用管理”页签,单击“创建应用”。
填写脚本入参,可勾选“敏感参数”对参数进行加密。 图5 填写脚本入参 敏感参数:脱敏展示,存储时会加密存储。 入库人工审核,风险等级为“高”的脚本默认开启。 图6 选择审批人和通知审批人渠道 单击“提交”创建自定义脚本。 图7 点击“提交” 父主题: 脚本管理
图3 添加委托管理员 使用约束 邀请成员账号加入组织之后,管理员或服务委托管理员可以在云运维中心查看和管理该组织下成员账号的数据与资源,支持的跨账号管理的功能有运维态势感知、资源管理和作业管理。 父主题: 开通云运维中心并授权使用
最大长度:255 incident_title String 事件标题,最大长度:200 最小长度:0 最大长度:200 incident_description String 事件描述,最大长度:600 最小长度:0 最大长度:600 incident_source String 单据来源
获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects":
原始告警 登录COC。 左侧菜单栏选择“故障管理 > 告警管理”,选择“原始告警”页签,查看原始告警列表,页面默认显示一个月的告警信息。 单击击告警列表前可以查看告警其他信息。 图1 原始告警 父主题: 告警管理
该原子动作可以用来等待目标对象达到预期的状态。如通过执行API原子动作调用ECS的StartServer接口后,再通过等待API结果原子动作调用ECS的ShowServer接口,直到接口响应中的状态变为ACTIVE,即状态为运行中,才判定ECS实例已经启动成功。 操作步骤 登录COC。 在左侧菜单栏
最大长度:100000000 error_msg String 请求响应描述 最小长度:0 最大长度:100000000 请求示例 POST https://IP:PORT/v1/external/incident/handle Request Headers: Content-Type: application/json
错误码 错误码 状态码 错误码 错误信息 描述 处理措施 400 COC.00040601 Exist script with same name: test1111_param. 存在相同名称的脚本 修改脚本名称 400 COC.00040701 Internal server
参数 是否必选 参数类型 描述 war_room_name 是 String warroom标题 最小长度:1 最大长度:255 description 否 String waroom描述 最小长度:0 最大长度:255 region_code_list 否 Array of strings
最大长度:100000000 error_msg String 请求响应描述 最小长度:0 最大长度:100000000 请求示例 GET https://IP:PORT/v1/external/incident/handle Request Headers: Content-Type: application/json
在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“现网实施”,跳转现网实施页面,系统会默认带出涉及的区域,填写区域对应的变更单后,系统会获取变更结果;若部分区域不涉及变更,可点击操作列的“不涉及变更”。 填写完变更信息后,单击右下角的“实施完成”,会走到待验证阶段。
理流畅度和运维效率。 资源管理驾驶舱:从全局视角实现用户资源可视化管理,支持多云和跨账号集中运维能力。 图2 资源全生命周期管理 变更风控&作业可信 融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查