检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用相应的委托,在本章节中,我们将以跨账号创建CES告警规则场景为例,详述如何创建相关委托。 在COC服务快速配置中心-云服务配置板块使用跨账号配置功能,如下图示例。 图1 快速配置中心-云服务配置跨账号功能图示 委托功能说明 跨账号功能的使用需要两个委托:组织管理员委托和执行账号委托。
OS诊断 操作场景 OS诊断是基于华为云积累的大量知识经验和特有的检测算法,通过采集少量GuestOS数据,帮您快速了解服务器整体运行状况并准确提供异常问题排查定位方法。 注意事项 OS诊断目标实例UniAgent状态需要为运行中,UniAgent相关操作请参考配置UniAgent。
处理事件 操作场景 事件受理并定位故障原因后,可以通过处理事件功能快速执行应急预案、脚本或作业来处理故障,并在事件处理功能中记录事件详情。 事件来源为“告警”的事件可以在事件详情中查看关联的原始告警。 执行响应预案 登录云运维中心。 在左侧导航栏选择“故障管理 > 事件管理”。
操作场景 在故障发生时,若有应用受影响,用户可以在WarRoom详情中添加影响应用。对于影响应用,可以通过应用诊断检查应用详情,通过执行预案快速恢复应用。 新增影响应用 WarRoom在启动、故障定界和恢复阶段支持新增影响应用功能。 登录云运维中心。 在左侧导航栏选择“故障管理 >
操作场景 云运维中心提供了统一操作ECS实例的功能。通过批量ECS执行命令功能,您可以在不登录ECS的情况下,发送脚本命令至单台或多台ECS,快速完成对ECS的日常维护。 注意事项 所选实例处于运行中状态,才能执行此操作。 所选实例UniAgent状态为运行中,才能执行此操作。Uni
应用诊断 操作场景 当事件创建后,您可以通过应用诊断(全链路故障诊断)功能快速定位故障根因。用户通过应用诊断可以查看应用层、组件层、资源层的关系拓扑,基于资源和应用告警的异常数据,并提供资源核心指标查看与实例诊断能力。 前提条件 已完成在CMDB的应用创建和资源关联,并完成应用拓扑编辑。
服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。 多AZ容灾 COC支持跨AZ容灾,当一个AZ异常时,不影响COC实例持续提供服务。 数据容灾 通过数据定期备份方式实现数据容灾。
应用韧性评估用于衡量应用在面对各种干扰和压力(如硬件故障、网络波动、流量峰值、安全攻击等)时,能够维持正常功能和性能的评估方式。韧性的概念不仅仅局限于恢复能力,还包括预防问题、快速检测问题以及有效应对问题的能力。 COC应用韧性评估基于华为最佳实践经验,定义了300+的评估项,覆盖节点、集群、网络、容灾、容器、业务和
登录云运维中心。 在左侧导航栏选择“故障管理 > 流转规则”。 单击右上方“新增规则”。 若两个流转规则中的信息较相似,可单击操作列“复制”,快速创建流转规则。 设置“基本信息”。 表1 基本信息参数说明 参数 说明 规则名称 自定义流转规则的名称。 区域 可选参数,在下拉列表选择区域。
用户开通云审计服务并创建和配置追踪器后,CTS可记录COC的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。 日志 用户开通云审计服务并创建和配置追踪器后,CTS可记录与云运维中心服务相关的操作事件。 详细的操作列表以及查看方法,请参见查看审计日志。
变更风控&作业可信,融合华为SRE安全生产最佳实践的变更管控模型,助力客户作业可信和稳定可靠。 标准化故障管理,加持WarRoom作战驾驶舱,实现故障高效协同和快速恢复。 智能化混沌演练,全旅程混沌工程解决方案,颠覆传统被动运维模式,推动客户向主动运维变革。 父主题: 使用前必读
n表达式和简单周期执行。 Global 参数中心 支持Region级参数全生命周期管理,持续看护参数正确性和一致性。支持作业编排等运维场景快速引用。 Global 事件中心 COC事件管理系统,可在事件大盘概览全部事件。提供手动处理事件和关联作业执行两种方式。支持手动事件升降级、
客户问题不重犯,缩短故障恢复MTTR。 支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。 故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。 韧性中心优化 全生命
现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心。对于无法避免的场景(硬件故障、服务器异常下电、网络设备单板故障等)通过提前制定快速恢复应急预案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。
涉及的权限 授权方式 适用场景 角色授权 用户-角色-权限 系统角色 系统策略 自定义策略 为主体授予角色或策略 每个用户可以根据被分配的角色相对快速地被授予相关权限,但灵活性较差,难以满足细粒度精确权限控制需求,更适用于对维护角色和授权关系工作量较小的中小企业用户。 策略授权 用户-策略
、变更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。 图3 运维总览 表1 运维总览数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位