检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
历史告警 操作场景 通过云运维中心查看清除过的告警信息。 在历史告警页签中,您仍然能查看汇聚告警的相关信息和处理记录等。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 告警管理”,选择“汇聚告警 > 当前告警”页签,查看集成告警列表信息。 图1 历史告警列表 在集成告警列表“操作”列选择
问题描述:必填,具体描述问题现网和对现网的影响,支持上传附件 问题来源:非必填,填写问题来源,来源包含事件、告警、WarRoom和主动运维发现。若是处理事件发现的问题则选择事件。 问题发生时间:非必填,填写当前问题发生的时间 问题应用:必填,选择该问题的归属应用 问题级别:必填,选择
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
变更管控是对资源进行变更操作时,通过工单提权的方式,才能执行脚本、作业或查询账号密码等操作,确保人和所操作的对象和实际资源保持一致,防止权限过大,降低安全风险。 操作场景 通过变更管控,您可以根据具体的使用场景,配置是否开启工单提权,当前支持事件、Warroom和变更单提权。 前提条件 开启变
可选参数。用户授权云运维中心执行作业所能够使用的权限范围。 执行描述 - 可选参数。对本次作业进行执行描述。 标签 - 可选参数。单击“添加标签”,输入标签的键和值。 输入标签的键和值时,系统会自动联想当前用户所有关联的预定义标签。 标签的键可以包含任意语种字母、数字、空格和_ . : = + - @
查看报告:提供应用的评估结果,展示评估过程中的涉及到的评估项以及存在的风险项,并给出优化建议。 使用前提 使用应用韧性评估需要您对服务进行授权,授权步骤请参考MAS。 支持场景 创建应用韧性评估任务,在评估时会自动关联应用下的资源进行分析并给出评估报告。在评估报告中会给出识别到的风险和优化建议。
待办中心”页面,进入待办中心的待处理列表。 图3 查看待办中心列表 单击搜索框,弹出搜索条件列表;选择对应的搜索条件,输入对应的值,单击回车按钮即可搜索数据。 搜索框后的图标依次支持:刷新列表数据,设置列表展示字段。 图4 添加筛选条件 选择“全部待办”、“待处理的待办”、“我处理的待办”、“我
演练报告有哪些内容? 演练报告包括演练过程的基本信息、服务恢复能力评分和复盘改进措施,并且能够生成复盘改进工单,确保演练中发现的问题能够落实改进。 父主题: 韧性中心常见问题
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询服务的终端节点。 父主题: 使用前必读
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
云运维中心支持查看应用、子应用、组件或分组下已关联的资源容量详情,按照资源类型展示资源核心数据和排名。 查看容量详情 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要查看的应用、子应用、组件或分组,单击右侧“容量”。 图1
华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。
补丁基线支持用户自定义配置。用户可通过所设置的补丁基线对实例的补丁进行扫描,修复不符合基线的补丁。 补丁基线拥有弹性云服务器ECS、云容器引擎CCE和裸金属服务器BMS三种使用场景,用户可以根据具体使用场景,创建合适的补丁基线。 云运维中心提供了各操作系统的公共补丁基线作为初始弹性云服务器ECS和裸金属服务器B
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“提交”,右侧弹出“确认执行”页面。
-- 周日)”),区域和应用。 图6 应用轮班排班列表 区域可用来区分同一个应用在不同区域的排班。若您的业务和区域无关,您可以忽略区域。 单击“添加人员”,填写排班信息后,单击“确定”,可查看已添加的排班人员。 图7 应用轮班排班添加人员 区域:本次排班的区域,可多选,可忽略 应用:本次排班的应用,可多选
通过云运维中心对汇聚告警进行相关处理。 可以选择作业和脚本两种方式对汇聚告警进行处理动作。 操作步骤 登录云运维中心。 在左侧导航栏选择“故障管理 >告警管理”,进入“告警管理”页面。 单击“汇聚告警 > 当前告警”,进入“当前告警”页面。 选择需要处理的告警,单击操作列“更多 > 处理”,进入“告警自动处理”页面。
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入事件单详情 单击“启动WarRoom”。 图2 启动WarRoom 填写WarRoom信息后,单击“提交”。 图3 填写WarRoom信息 若在拉起Warroom的时候需要同时拉起群组(群组方式支持企业微信和钉钉),需要配置以下信息: