正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之
“故障恢复时间”。此处填写的业务中断时间计入对应应用的SLO中断记录。 图1 清除告警-业务中断 生成SLO中断记录需要先设置对应的SLA规则、SLO规则,并且该告警存在对应的SLA记录。 输入备注,单击“确定”,清除告警。 备注可以包含中文字符、英文字母、数字及特殊字符组成,长度不超过100个字符。
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
修改或删除委托权限 若开通COC后,识别到存在委托权限过大或权限不足的情况,可以前往统一身份认证服务中修改委托策略。 如果需要修改委托的权限、持续时间、描述等,可以在委托列表中,单击委托右侧的“修改”,修改委托。 图2 委托列表 可在授权记录页面中,对该委托进行授权或删除已授权的权限。 图3 授权记录
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的故障点进行
改进事项字段说明 字段名称 说明 改进名称 改进事项的名称 所属应用 改进事项所属的应用 改进类型 改进事项的类型 改进责任人 改进事项的责任人 期望完成时间 改进事项的期望完成时间 问题现象 问题现象 改进闭环标准 改进事项闭环的标准
SO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。
唯一安全凭证,并使用COC服务。 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。 将COC服务的相关操作委托给更专业、高效的其他华为云账号或者云服务,这些账号或者云服务可以根据权限进行代运维。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可
与其他云服务的关联 云运维中心COC服务与其他服务的关系,如图1所示。 图1 与其他服务的关系 表1 与其他服务的关系 服务名称 与其他服务的关系 主要交互功能 安全云脑 总览页面中提供用户查看到账号下的安全监控信息。从安全评分、安全监控、安全趋势三个维度呈现安全概览,并支持自定义看板。
EulerOS2.0 选择补丁的产品属性,在补丁扫描修复时将会过滤出该产品的补丁。 合规性报告 未指定 重大 高 中 低 提示 符合该补丁基线的补丁在合规性报告中展示的等级。 基线补丁 无 用户自定义基线补丁的版本以及发行版号,补丁扫描安装时将会以用户自定义的基线补丁作为是否合规判断依据
参数说明 参数名称 参数说明 待办名称 必选参数。 只能由中文字符、英文字母、数字及“_”、“-”、“.”组成,长度不超过255字符。 以中文字符、英文字母、数字开头 不能以“.”结尾 待办描述 必选参数。 可输入中文字符、英文字母、数字及特殊字符,长度不超过1000字符 类型 必选参数。
右下角的“确定”完成授权。 图4 设置最小授权范围 创建用户并加入用户组 创建用户时选择步骤3创建的具有COC权限的用户组。 获取访问密钥(AK/SK) 账号和IAM用户的访问密钥是单独的身份凭证,即账号和IAM用户仅能使用自己的访问密钥进行API调用/鉴权。获取访问密钥的方法请参见新增访问密钥。
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。 合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。 全方位变更管理 方
本章节介绍在“应用资源管理”页面,如何通过COC快速管理您的资源和应用,包括同步资源、创建应用并建模、执行UniAgent操作等。主要操作如下: 同步资源:获取当前用户所属的所有Region下资源数据并同步至COC。 创建应用并建模:通过应用资源建模,按业务逻辑单元便捷地进行资源管理。
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
根据作业名称,在“操作”列选择要执行的操作,包括“执行”、“编辑”、“克隆”、“删除”。 修改作业:单击“修改”,可按照创建自定义作业中的操作步骤进行修改,单击“取消”可放弃本次修改,单击“提交”会更新作业,并递增作业的版本号。 克隆作业:单击“更多 > 克隆”,可按照创建自定义作业中的操作步骤进行修
创建自定义作业 支持用户创建自定义作业,编写特定的操作步骤。 操作场景 通过Cloud Operations Center创建一个自定义作业。 注意事项 根据作业步骤内容,确认并如实填写作业的风险等级。 操作步骤 登录COC。 在左侧菜单栏选择“自动化运维”,在“日常运维”模块单击“作业管理”,进入“作业管理”页面。
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。