检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的故障点进行分析,
查看审计日志 支持审计的COC操作 通过云审计服务,您可以记录与云运维中心服务相关的操作事件,便于日后的查询、审计和回溯。支持审计的关键操作如表1所示。 表1 支持审计的关键操作列表 操作名称 资源类型 事件名称 创建warroom WarRoom createWarRoom 创建起会规则
您可以通过云运维中心的应用管理功能对资源进行分组管理,管理云服务对象与应用之间的关系,管理范围包含华为云、友商云(当前支持阿里云、AWS)核心资源和IDC离线资源,为混沌演练、变更管控、账号管理等功能提供统一可靠的资源分组信息。 应用的结构类型根据复杂程度分为轻量级应用和大型应用。 轻量级应用:层级少,架构简单。
于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 可以查看WarRoom列表信息。 单击需要查看的WarRoom标题。
可选参数。用户授权云运维中心执行作业所能够使用的权限范围。 ServiceLinkedAgencyForCOC 执行描述 可选参数。对本次作业进行执行描述。 - 标签 可选参数。单击“添加标签”,输入标签的键和值。 输入标签的键和值时,系统会自动联想当前用户所有关联的预定义标签。 标签的键可以包含任意语种字母、数字、空格和_
查看报告:提供应用的评估结果,展示评估过程中的涉及到的评估项以及存在的风险项,并给出优化建议。 使用前提 使用应用韧性评估需要您对服务进行授权,授权步骤请参考MAS。 支持场景 创建应用韧性评估任务,在评估时会自动关联应用下的资源进行分析并给出评估报告。在评估报告中会给出识别到的风险和优化建议。
演练报告有哪些内容? 演练报告包括演练过程的基本信息、服务恢复能力评分和复盘改进措施,并且能够生成复盘改进工单,确保演练中发现的问题能够落实改进。 父主题: 韧性中心常见问题
补丁工单日志中出现all mirrors were tried异常如何处理? 一般由网络原因引发,确认机器网络是否能和机器上所配置的补丁源联通,或机器网络是否出现异常。 父主题: 补丁管理常见问题
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询服务的终端节点。 父主题: 使用前必读
手机号:用户使用的手机号码 邮箱:用户使用的邮箱号码 企业微信:用户企业微信群聊机器人的webhook地址 钉钉:用户钉钉群聊机器人的webhook地址 钉钉密钥:用户在钉钉群组中添加自定义机器人时,选择“加签”校验生成的签名密钥 飞书:用户飞书群聊自定义机器人的webhook地址
云运维中心支持查看应用、子应用、组件或分组下已关联的资源容量详情,按照资源类型展示资源核心数据和排名。 查看容量详情 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 单击左上方“应用管理”。 在左侧应用栏,选择需要查看的应用、子应用、组件或分组,单击右侧“容量”。 图1
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
补丁基线支持用户自定义配置。用户可通过所设置的补丁基线对实例的补丁进行扫描,修复不符合基线的补丁。 补丁基线拥有弹性云服务器(ECS)、云容器引擎(CCE)和裸金属服务器(BMS)三种使用场景,用户可以根据具体使用场景,创建合适的补丁基线。 云运维中心提供了各操作系统的公共补丁基线作为初始ECS和BMS场景默认
您可以通过演练规划对故障模式进行排期,创建演练规划可以指定执行人和计划演练时间,执行人通过接单来创建演练任务,演练任务关联故障模式和区域。 注意事项 演练规划所属的企业项目无需指定,和其关联的故障模式的企业项目保持一致。 创建演练规划 登录云运维中心。 在左侧导航栏选择“韧性中心 > 混沌演练”。 单击“演练规划”。
模拟节点间网络不通,支持故障紧急终止;请勿填写演练系统和UniAgent服务器的IP地址,否则可能导致演练失败;如需要中断已建立的长连接,中断方向请选择全方向 网卡down 模拟网卡down的情况,因各主机网络配置不同,网卡down后有可能启动网卡失败,请做好恢复网络的应急预案,不支持故障紧急终止 篡改DNS域名解析
华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。
完成影响应用新增。单击受影响应用可以查看该应用的告警、事件和变更信息。 执行预案 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 单击需要修改的WarRoom标题。 选择需要处理的应用,单击“执行预案”。 若选择应急预案,在下拉列表选择相应的应急预案,单击“执行”。 若没有合适的应急预案需要创建,请参考创建应急预案。
查询实例详情 操作场景 生成的云产品实例,可以在服务目录下查看详情,包括实例的基本信息、生成实例的日志事件和资源详情。 前提条件 确保您登录的账号拥有终端用户的权限,终端用户权限账号需加入COCServiceCatalogEndUserFullAccessPolicy策略。 查询实例详情
公共预案是云运维中心提供的预定义预案,用户对公共预案具有只读和使用权限,应急预案提供基础的公共预案列表。公共预案可以通过克隆,从而创建自定义预案。 查看公共预案详情 登录云运维中心。 在左侧菜单栏选择“韧性中心 > 应急预案”。 单击左上方“公共预案”。 选择需要查看的公共预案,单击应急预案名称。
手动分批:用户可以根据自身需要,手动创建若干批次,然后手动将机器分配到各批次中。 不分批:用户所有待执行的机器会全部在同一批次。 熔断策略: 设置执行的成功率,当执行失败的机器数量到达根据成功率计算出的失败数量,工单状态会变为异常,并停止执行。 成功率取值范围0~100,支持精确到小数点后一位。 单击“确定”并再次“确定”。