检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
怎么能收到事件单通知? 登录COC。 在人员管理中完成消息通知订阅,具体参考人员管理。 在通知管理中配置通知规则,具体参考通知管理。 父主题: 故障管理常见问题
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
通过云运维中心清除指定汇聚告警。 清除后的汇聚告警会在历史告警页签中找到。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 告警管理”,选择“汇聚告警 > 当前告警”页签,查看集成告警列表信息。 在集成告警列表中勾选告警单,单击“清除”或“批量清除”。 选择“业务是否中断”,如果选择“
火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。 解决方案 混沌演练驱动主动
跨账号场景下,查询当前组织的root 修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况,可以前往统一身份认证服务中修改委托策略。 如果需要修改委托的权限、持续时间、描述等,可以在委托列表中,单击委托右侧的“修改”,修改委托。 图2 委托列表 可在授权记录
案进行应对。 COC混沌演练为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC
应用的评估状态为”评估完成”时才可以查看评估报告。 查看评估报告 登录云运维中心。 在左侧导航栏选择“韧性中心 > 应用韧性评估”。 单击操作列”查看报告”,查看最新的评估报告详情。 1. 评估报告详情中,给出了识别到的风险项,并给出优化建议。 2. 若您认为部分风险项可以不进行优化,则可
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能
登录COC。 在左侧导航栏选择“任务管理 > 执行记录”页面,选择“补丁工单”页签。 用户可以通过ID、区域、工单类型、开始时间、结束时间进行搜索。 图1 补丁工单列表 工单类型:扫描、修复 单击 ID 可查询到对应工单详情。 当工单的状态为“暂停”状态时,单击“继续”,可以让工单继续。
一站式资源运维 实践场景 某电商运维人员在日常工作中发现,云上资源合规性问题突出,OS合规性风险尤为明显,引发客户对云上OS安全合规性担忧;需要周期性检查主机OS补丁的合规性情况,避免主机因为OS补丁缺失产生漏洞,导致业务受损。云上无统一的OS合规性管理和自闭环工具,合规性问题修
待办名称 必选参数。 只能由中文字符、英文字母、数字及“_”、“-”、“.”组成,长度不超过255字符。 以中文字符、英文字母、数字开头 不能以“.”结尾 待办描述 必选参数。 可输入中文字符、英文字母、数字及特殊字符,长度不超过1000字符 类型 必选参数。 待办类型,可以选择: 计划事件
特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。 图1 COC产品介绍 统一资源管理 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
单击“ID”列对应的“资源操作工单ID”,可查询到对应工单详情。 当工单的状态是暂停状态时,单击“继续”,可以让工单继续。 当工单的状态为执行中时,单击“暂停”,可以让工单暂停。 当工单状态为非完成状态时,单击“强制结束”,可以让工单停止。 图2 资源操作工单详情 父主题: 执行记录
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
ity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为云账号中,给企业中不同职能部门的员工创建IAM用户,让员工拥有唯一安全凭证,并使用COC服务。 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。
使用前提 使用应用韧性评估需要您对服务进行授权,授权步骤请参考MAS。 支持场景 创建应用韧性评估任务,在评估时会自动关联应用下的资源进行分析并给出评估报告。在评估报告中会给出识别到的风险和优化建议。 1. 当前应用韧性评估,允许评估一个应用下最多100个资源实例。若资源数量超出限制,则会评估失败,并给出相应报错。
故障管理常见问题 生成事件的流程是什么? 怎么能收到事件单通知? Warroom是什么?
华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
(该参数放在inject_fault函数内时不生效) 1. 在样例的“inject_fault”函数中,注入的故障即是“创建一个{FILE}文件,并在{FILE}文件中新增内容”。故障注入成功的标志即为在{FILE}文件中输入了“successfully inject”内容。 2. 在样例的“check_faul