检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行
如果资源无法在资源管理页面中查询到,如何处理? 在资源管理页面中进行同步资源。具体操作详见同步资源。 父主题: 资源管理常见问题
批量ECS资源切换镜像报错如何处理? 工单执行报错"code":"Ecs.0021","message":"Failed to check Cinder quotas because the number of Gigabytes exceeded the upper limit
验证事件 操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,在验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。
资源监控 操作场景 您可以在资源监控快速查看账号下购买资源(例如弹性云服务器、对象存储、云数据库等)的监控指标信息,如ECS的CPU使用率、磁盘读/写带宽,对象存储的存储对象总数、TPS等。 资源监控 登录云运维中心。 进入COC“总览”后,可以查看CES监控的指标信息。 图1 CES监控信息
登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 在SLO管理列表中,选择对应“操作”列中“中断记录”,进入“中断记录”页面。 图1 中断记录 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图
补丁操作出现lsb_release not found异常如何处理? 1.请确认ECS实例上有是否有lsb_release命令包,若没有,则安装相应命令包。 2.若ECS实例上有lsb_release命令包,则确认使用的UniAgent版本是否高于1.1.0版本,若高于1.1.0则降UniAgent版本为1
若您的企业组织存在多个租户账号,您可以使用COC的跨账号能力在创建CES告警规则、执行作业等场景通过一个账号完成多账号多区域的运维任务配置、下发,在此过程中,您需要创建和使用相应的委托,在本章节中,我们将以跨账号创建CES告警规则场景为例,详述如何创建相关委托。 在COC服务快速配置中心-云服务配置板块使用跨账号配置功能,如下图示例。
补丁工单日志中出现all mirrors were tried异常如何处理? 一般由网络原因引发,确认机器网络是否能和机器上所配置的补丁源联通,或机器网络是否出现异常。 父主题: 补丁管理常见问题
操作场景 历史告警显示的是被清除的汇聚告警。当汇聚告警被清除后,您可以在历史告警页签中继续查看汇聚告警的相关信息和处理记录。 注意事项 告警数据留存期为31天,逾期将自动清除。 查看历史告警 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”。 单击“汇聚告警 > 历史告警”。
> 通知管理”页面,选择需要编辑的通知,在列表中的“操作”列单击对应的“编辑”,参考创建通知的步骤3进行编辑和保存。 图3 编辑通知 删除通知 登录COC。 在左侧导航栏选择“基础配置 > 通知管理”页面,选择需要删除的通知,在列表中的“操作”列单击对应的“删除”, 图4 删除通知
按照组织账号筛选 跨账号场景下,如未选择账号,默认展示当前账号的运维态势数据。 图2 跨账号场景的应用数据汇聚 运维总览 运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5事件四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通
全部待办仅可显示与登录账号有关(创建人、责任人是登录账号)的待办单子,其他子账号的待办数据不会显示。 查看待办 登录COC。 在左侧导航栏选择“任务管理 > 待办中心”页面,进入待办中心的待处理列表。 单击列表数据中的“待办名称”,进入“待办详情”页面。 图6 待办详情 在“待办详情”页面,单击附件名,即可下载附件。
概述 云运维中心支持对弹性云服务器 ECS、云数据库 RDS、Flexus应用服务器L实例、裸金属服务器 BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机
响应Body参数 参数 参数类型 描述 total Long 总条数 data JobScriptOrderListModel object 单页数据列表 表3 JobScriptOrderListModel 参数 参数类型 描述 order_id Long 主键id,对应job_order_do的主键
(1)warroom的状态为(启动warroom、故障界定); (2)提权应用在warroom的影响应用列表中; (3)提权操作人是warroom的恢复责任人、恢复成员、管理员。 变更单状态校验: (1)提权应用,Region必须与变更单中的一致; (2)此次提权的操作人必须是变更单的实施人;
/应用总时长)*100%,通常代表服务/应用的质量水平。 在COC中,Warroom、告警、事件(“业务是否中断”属性为“是”的事件单)等运维工单,会影响SLO,COC会自动化地完成SLO的计算,为SLO看板大屏提供数据。 父主题: SLO管理
创建补丁基线 通过Cloud Operations Center创建一个用户自定义的补丁基线。 登录COC。 在左侧菜单栏选择“资源运维 > 自动化运维”页面,在“日常运维”模块单击“补丁管理”,进入“补丁管理”页面,选择“补丁基线”页签。 单击“创建补丁基线”。 图2 单击创建补丁基线
审批人无法接收通知? 审批人没有在人员管理配置任何消息通知渠道。 消息渠道配置请参考:如何使用人员管理。 父主题: 自动化运维常见问题
事件处理过程中,初步定位发现该故障为重大故障或群体性故障,可启动WarRoom攻关,协同各应用专家,可快速恢复故障。 启动WarRoom 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。 在“待处理的”页签,选择需要处理的事件单,单击事件标题。 单击右上方“启动WarRoom”。 设置“启动WarRoom”。