检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题
创建分组 操作场景 创建组件后,若想在组件下创建分组,请按如下操作进行。 创建分组 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,展开应用,选择组件,单击。 设置“创建分组”。 表1 创建分组参数说明 参数 说明 示例 分组名称
概述 您可以通过云运维中心的应用管理功能对资源进行分组管理,管理云服务对象与应用之间的关系,管理范围包含华为云、友商云(当前支持阿里云、AWS)核心资源和IDC离线资源,为混沌演练、变更管控、账号管理等功能提供统一可靠的资源分组信息。 应用的结构类型根据复杂程度分为轻量级应用和大型应用。
事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。 启动WarRoom 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“启动WarRoom”。 设置“启动WarRoom”。
资源看板 操作场景 您可以在资源看板快速查看账号下购买的资源(例如弹性云服务器、弹性公网IP、云数据库等),以及资源当前的告警信息(在云监控服务CES配置后产生)。 资源看板 登录云运维中心。 进入COC“总览”后,可以查看对应的资源信息。 图1 资源信息 默认展示全部区域的资源
对于获取用户Token接口,返回如图1所示的消息头,其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 获取用户Token响应消息头 响应消息体(可选) 该部分可选。响应消息体通常以结构化格式(如JSON或XML)返回,与响应
暂不支持查看阿里云资源详情。 IDC离线资源仅支持查看虚拟机资源详情。 查看资源详情 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 选择需要查看资源所在的云厂商。 默认选择“华为云”。 选择需要同步的资源类型。 默认选择“弹性云服务器ECS”。 选择目标实例,单击实例名称。
概述 集成配置支持简单、快速集成现有(如华为云CES、AOM)或第三方等监控系统,将业务下所有分散的监控系统告警进行统一收口及管理。不同的监控系统通过各自独立的集成接入密钥实现对接集成。 监控系统接入后,可在原始告警中查看告警信息,通过配置流转规则后可将告警信息转事件或汇聚告警。
Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头中,从而通过身份认证,获得操作API的权限。Toke
续跟进直至闭环。 告警:生成告警管理,支持基于响应预案手动或自动化快速闭环。 数据源 请选择数据源。 数据源是原始告警产生的来源。 配置规则前请确保数据已接入并启用,当满足所有条件时,运行流转规则。数据源设置请参考集成管理。 触发条件 选择触发条件的key、比较方式、value。
权限:允许或拒绝对指定资源在特定条件下进行某项操作。 对应API接口:自定义策略实际调用的API接口。 授权项:自定义策略中支持的Action,在自定义策略中的Action中写入授权项,可以实现授权项对应的权限功能。 依赖的授权项:部分Action存在对其他Action的依赖,需要
于关联资源数据总量。 智能关联资源 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,展开应用,选择需要关联资源的分组,单击“智能关联资源”。 图1 智能关联资源 智能关联规则支持修改,修改后可以继续智能关联其他符合规则的
概述 参数中心为用户提供安全可靠的数据存储管理。参数可以是保存在云运维中心的任何数据,例如账号、密钥、普通文本等数据。参数支持被脚本、作业等操作引用,支持文本参数和加密数据的全生命周期管理。 父主题: 参数中心
测试组件 分组名称 根据命名规则,自定义分组的名称。 测试分组 云厂商 请选择目标实例所在云厂商。 华为云 资源关联方式 请选择资源关联方式。 手动关联:用户在对应分组下,手动将对应资源数据关联至分组内进行管理。 智能关联:用户通过企业项目和标签的形式,将企业项目下的相同标签资源创建至同一资源分组。
可选项“首次通报”、“进展通报”、“恢复通报”。 通报内容 根据选择的通报模板填写通报内容。 限制长度1-1000个字符。 单击“确定”。 完成通告更新。最新的通告显示在“进展通告”中。 单击“发布”。 设置“发布通告”。 表2 发布通告参数说明 参数 说明 通报主题 自定义通报主题。 通报对象 可选项“排班”、“个人”。
操作场景 WarRoom启动后,在处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。
快速配置中心 操作场景 COC快速配置中心面向华为云全局云服务提供场景化的集中配置入口,通过最佳实践的极简配置实现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 您可以在快速配置中心完成云运维中心配置和云服务配置: 云运维中心配置:涵盖资源应用管理、自动化运维、故障管
为分组创建对应环境后,即可为环境关联相关资源实例,后续可通过应用监控功能实时监控资源的使用情况。 手动关联资源 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要关联资源的应用,单击“关联资源”。 图1 手动关联资源 设置“关联资源”。 表1 关联资源参数说明
邀请账号加入组织。 B账号加入组织后,登录A账号在COC服务“运维态势感知”、”资源管理”、”作业管理”页面可对B账号进行跨账号运维管理。 有关组织的详细说明请参见《组织用户指南》。 为了请求B账号下的数据资产信息,COC会自动在B账号中创建服务关联委托: 该委托是云服务委托,“
“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。 解决方案 混沌演练驱动主动运维:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、复盘改进4个维度,提供端到端混沌演练能力; 沉淀故障模式:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,内置300个+典型故障模式。