检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,
创建新版本 操作场景 产品创建后,默认生成一个基础产品版本。如果管理员需要更新产品的模板内容,可以创建产品的新版本。 前提条件 确保您登录的账号拥有管理员的权限,管理员权限账号需加入COCServiceCatalogAdminFullAccessPolicy策略。 创建新版本 登录云运维中心。
最大长度:100000000 error_msg String 请求响应描述 最小长度:0 最大长度:100000000 请求示例 GET https://IP:PORT/v1/external/incident/create Request Headers: Content-Type: application/json
系统以及预装的公共应用。请根据您的实际情况自助配置应用环境或相关软件。 私有镜像:用户基于云主机或者外部镜像文件创建的个人镜像,仅用户自己可见。包含操作系统、预装的公共应用以及用户的私有应用。选择私有镜像创建云主机,可以节省您重复配置云主机的时间。 共享镜像:由其他用户共享的私有镜像。
系统以及预装的公共应用。请根据您的实际情况自助配置应用环境或相关软件。 私有镜像:用户基于云主机或者外部镜像文件创建的个人镜像,仅用户自己可见。包含操作系统、预装的公共应用以及用户的私有应用。选择私有镜像创建云主机,可以节省您重复配置云主机的时间。 共享镜像:由其他用户共享的私有镜像。
设置不同的访问权限,以达到不同员工之间的权限隔离,您可以使用统一身份认证服务(Identity and Access Management,简称IAM)进行精细的权限管理。该服务提供用户身份认证、权限分配、访问控制等功能,可以帮助您安全的控制华为云资源的访问。如果华为账号已经能满
定时运维 故障管理 配置和应用流转规则 标准化事件管理流程 集成告警 WarRoom机制 可用性分析 混沌演练 02 入门 以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练 04 API 您可以使用本文档提供的AP
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
总览页面中支持查看应用监控看板,在应用运维管理中已配置的仪表盘可以在云运维中心中进行展示。故障管理中,支持接入应用运维管理服务产生的告警,并在云运维中心中进行流转处理。混沌演练中,支持在演练过程中查看应用运维管理的指标数据。 应用监控 接入应用运维管理告警 演练监控 弹性云服务器 资源运维中,可以对弹性云服务器进
机后,可通过“同步账号”按钮一键同步新增的OS账号。注意:若想新增的账号参与纳管改密,还需在帐号基线中配置该账号。(主机必须在基线中才可以同步到账号)。 查看账号密码:用户可以查看在线托管资源和已开启改密策略资源的账号密码。注意:只有正常态的改密状态和导入的账号能获取到账号密码。
影响应用管理 操作场景 在故障发生时,若有应用受影响,用户可以在WarRoom详情中添加影响应用。对于影响应用,可以通过应用诊断检查应用详情,通过执行预案快速恢复应用。 新增影响应用 WarRoom在启动、故障定界和恢复阶段支持新增影响应用功能。 登录云运维中心。 在左侧导航栏选择“故障管理
根据页面的运行安装命令进行手动安装UniAgent。 图3 “手动安装UniAgent”页面 UniAgent安装完成后,单击 “返回自动安装”。 单击“设置安装机”,设置刚才完成UniAgent安装的机器为安装机。 图4 设置安装机 在弹框中填写设置安装机相关信息,单击“确认”。 图5 确定安装机
处理事件 操作场景 事件受理并定位故障原因后,可以通过处理事件功能快速执行应急预案、脚本或作业来处理故障,并在事件处理功能中记录事件详情。 事件来源为“告警”的事件可以在事件详情中查看关联的原始告警。 执行响应预案 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。
勾选需要选择的应用或组件。勾选应用会自动选择应用下所有组件。 - 主机的某个账号能被成功纳管有三个前提条件: 1、安装UniAgent且UniAgent的状态为运行中。 2、主机状态为运行中。 3、主机中存在基线中配置的账号且账号可登录。 为了确保组件下新增的主机实例能被自动纳管,还需在“账号改密 > 改密策略”页面的组件维度下进行关联操作。
设置排班,并给排班中添加排班人员,具体参考排班管理。 集成监控系统,自动上报告警信息,具体参考集成管理。 配置流转规则,根据流转规则生成事件,具体参考配置流转规则。 若事件生成后,想要接收到事件的通知信息,可配置自动通知能力,具体参考通知管理。 父主题: 故障管理常见问题
设置“转发责任人”。 表1 转发责任人参数说明 参数 说明 转发责任人 可选项“排班”、“个人”。 排班:按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。 个人:选择责任用户。配置责任用户详细操作请参考人员管理。 说明 请填写转发说明。 当前阶段定位情况 请填写当前阶段定位情况。
设置“转发责任人”。 表1 转发责任人参数说明 参数 说明 转发责任人 可选项“排班”、“个人”。 排班:按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。 个人:选择责任用户。配置责任用户详细操作请参考人员管理。 说明 请填写转发说明。 单击“确定”。 完成问题单转发。问题单责任人为设置的“转发责任人”。
在下拉列表中选择企业项目,支持选择“全部”。 全部 通知对象 可选项“排班”、“个人”。 排班:按照已配置的排班场景和角色在下拉列表选择。配置排班详细操作请参考排班管理。 个人:选择审核用户。配置审批用户详细操作请参考人员管理。 - 通知渠道 在下拉列表设置通知渠道。 默认:按照审核人员订
3、变更场景:支持用户根据业务情况自定义配置。 4、变更应用:先选择顶层应用,再选择下层具体的应用范围。 5、变更区域:变更区域和变更应用相结合定义变更范围。 6、变更计划:以region为维度生成。 需要按region配置实施人&配合人; 需要按region配置计划变更时间窗(注:允许变更时间窗受变更级别&变更类型限制)。
输入标签的键和值时,系统会自动联想当前用户所有关联的预定义标签。 标签的键可以包含任意语种字母、数字、空格和_ . : = + - @特殊字符,但首尾不能含有空格,不能以_sys_开头,限制长度最长128个字符。 标签的值可以包含任意语种字母、数字、空格和_ . : / = + - @特殊