检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提升应用高可用能力:PRR(Production Readiness Review 生产就绪程度评审),承载华为云SRE对云应用上线评审的最佳实践,提供在线评审电子流和评审项,提升应用高可用能力。
查看SLO 查看SLO 登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 图1 SLO列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持:刷新列表数据、设置列表展示字段。 图2
SLO中断记录 登录COC。 在左侧菜单栏选择“基础配置 > SLO管理”,进入“SLO管理”页面。 在SLO管理列表中,选择对应“操作”列中“中断记录”,进入“中断记录”页面。 图1 中断记录 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据
SLA记录 查看SLA记录 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”页面,选择“SLA记录”页签,跳转到SLA记录列表界面。 图1 查询SLA记录 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持:刷新列表数据
公共SLA 查询公共SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”,进入“SLA管理”页面。 选择“公共SLA”页签,进入公共SLA列表界面。 图1 查看SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值,单击“回车”即可搜索数据。搜索框后的图标依次支持
通知管理 通知管理为用户创建通知规则,通知规则包含事件通知、变更通知和问题通知。 当产生事件单、问题单或有变更单时,通知规则会根据事件/问题/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的渠道,进行发送通知信息,实现了自动通知的功能。 事件和变更的通知模板为系统内置的
同步资源 提供用户同步资源的能力,资源数据支持页面的条件过滤及字段显示控制。 资源:用户可以在云平台上使用的一种实体。例如:弹性云服务器(ECS)实例、云硬盘(EVS)磁盘、虚拟私有云(VPC)实例等。 同步资源操作:需要当前用户具有rms:resources:list权限。该权限将用于调用
汇聚告警 登录COC。 在左侧菜单栏单击“故障管理 > 告警管理”,可以查看汇聚告警或原始告警列表信息。 在汇聚告警搜索框中输入告警单号、集成告警名称,“回车”进行搜索。 汇聚告警包含当前告警和历史告警。 图1 告警列表 处理告警 告警转事件 清除告警 历史告警 父主题: 告警管理
定时任务管理 创建定时任务 登录COC。 在左侧菜单栏选择“资源运维 > 自动化运维”,在“日常运维”模块单击“定时运维”,进入“定时运维”页面。 图1 定时运维入口 图2 定时任务列表 在“定时运维”页面,单击右上角“创建定时任务”,进入“创建定时任务”页面。 图3 创建定时任务
待办中心 概述 待办中心主要实现功能:客户华为云主账号(租户主SRE)直接创建任务给下属的某些IAM账号(租户子SRE)去处理(如一个公司下有不同部门,每个部门分别有一个IAM账号)。 新增待办 登录COC。 在左侧导航栏选择“任务管理 > 待办中心”页面,进入待办中心列表界面。
自定义SLA 租户可自由定制自己需要的SLA。 查询自定义SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”页面。 在“SLA”页面选择“自定义SLA”页签,即可查看自定义SLA列表。 图1 SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的值
故障模式 故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景
一站式资源运维 实践场景 某电商运维人员在日常工作中发现,云上资源合规性问题突出,OS合规性风险尤为明显,引发客户对云上OS安全合规性担忧;需要周期性检查主机OS补丁的合规性情况,避免主机因为OS补丁缺失产生漏洞,导致业务受损。云上无统一的OS合规性管理和自闭环工具,合规性问题修复困难或求助华为侧协助解决
改密策略 开启改密策略 登录COC。 在左侧菜单栏选择“自动化运维”,在“日常运维”模块单击“帐号管理”,进入“帐号管理”页面。 选择“帐号改密”页签下“改密策略”页签,根据业务需要,进行纳管策略设置,来确保新增的主机实例也能被自动纳管。 图1 开启改密策略 未绑定组件的增量主机实例实现自动纳管
补丁工单 提供用户查看、操作补丁工单的能力。 前提条件 用户使用补丁管理,系统生成对应的工单。 操作场景 通过Cloud Operations Center查看补丁工单。 操作步骤 登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“补丁工单”页签。 用户可以通过ID
资源操作工单 提供用户查看资源操作工单的能力。 前提条件 用户使用ECS操作、RDS操作、BMS操作、FlexusL操作等,系统生成对应的工单。 操作场景 通过Cloud Operations Center查看ECS工单、RDS工单、BMS工单、FlexusL工单。 操作步骤 登录
查看帐号密码 获取帐号密码 登录COC。 在左侧菜单栏选择“自动化运维”,在“日常运维”模块单击“帐号管理”,进入“帐号管理”页面。 选择“帐号管理”页签,可通过资源视角和应用视角来管理主机。资源视角针对购买的所有主机实例,应用视角针对购买的并已绑定应用的主机。 图1 帐号管理概览
标准化故障管理 实践场景 某智能客服运维人员在处理事件/告警时,事件处理闭环低效,无标准化事故处理流程、无明确故障恢复协同作战阵型、无应急响应预案。同类型故障场景重复出现,无运维经验沉淀,确定性故障场景无法自动恢复。存在多种级别的告警,处理告警缺乏规范性流程且处理效率较低。需要建立标准化的事件流程
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的