检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。
华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。 图3 销售许可证&软件著作权证书 父主题: 安全
进行合规性报告扫描。 操作场景 通过Cloud Operations Center补丁扫描功能进行ECS/CCE/BMS实例补丁合规性报告分析。 注意事项 若出现实例不可选,请排查以下三种情况: 该实例UniAgent状态是否正常 是否为Cloud Operations Center补丁管理支持操作系统
务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心。对于无法避免的场景(硬件
Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录COC的管理事件和数据事件用于审计。
针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行分析,通过描述故障发生的条件、故障发生的现象、客户影响等字段建立故障模式,并将该故障模式应用于日常的混沌演练。 注意事项 确认故障模式所属的企
Python环境 Python(Python2或Python3) dnf软件包(Huawei Cloud EulerOS2.0、CentOS8.0及以上版本、EulerOS2.9及以上版本依赖) yum软件包(Huawei Cloud EulerOS1.1、CentOS8.0以下版本、EulerOS2
混沌演练驱动主动运维:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、复盘改进4个维度,提供端到端混沌演练能力; 沉淀故障模式:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,内置300个+典型故障模式。 图1 全旅程混沌工程 风险分析:分析应用架构,找出风险点。 应急预案:针对风险点,制定应急预案。
在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“受理”,受理后可对问题单进行分析定位。 父主题: 处理问题
全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。 故障模式库:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,用户开箱即用。 图5 智能化混沌演练
会进行有漏洞的补丁升级。 补丁例外 无 已批准的补丁以及已拒绝补丁支持以下格式: 完整的软件包名称,格式为:example-1.0.0-1.r1.hce2.x86_64 包含单个通配符的软件包名称,格式为:example-1.0.0*.x86_64 表2 自定义安装规则 类型 可选项
支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。 故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。 韧性中心优化 全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用
监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top10应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。
补丁扫描与修复 自动化运维 脚本管理 作业模板与执行 定时运维 故障管理 配置和应用流转规则 标准化事件管理流程 集成告警 WarRoom机制 可用性分析 混沌演练 02 入门 以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练
选择安全更新,在补丁修复时不会进行有漏洞的补丁升级。 补丁例外 无 已批准的补丁以及已拒绝补丁支持以下格式: 1. 完整的软件包名称,格式为:example-1.0.0-1.r1.hce2.x86_64。 2. 包含单个通配符的软件包名称,格式为:example-1.0.0*.x86_64。 表2 自定义安装规则 类型
IAM是华为云提供权限管理的基础服务,无需付费即可使用,您只需要为您账号中的资源进行付费。 通过IAM,您可以通过授权控制他们对华为云资源的访问范围。例如您的员工中有负责软件开发的人员,您希望他们拥有COC的使用权限,但是不希望他们拥有删除COC等高危操作的权限,那么您可以使用IAM为开发人员创建用户进行权限分
coc:document:update 修改文档 √ x x x coc:document:get 查看文档 √ x x x coc:document:analyzeRisk 分析文档风险 √ x x x coc:instance:executeDocument 在弹性云服务器上执行文档 √ x x x 资源批量操作