检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能发生的
的韧性。 镜像与武器版本支持声明 COC混沌演练新增了裸金属服务器(BMS)和Flexus应用服务器L实例(HCSS)两种攻击对象,并提供了相应的资源类武器和网络类武器供用户演练使用。通过集成武器模块和功能,用户可以更准确地模拟真实环境故障,及早发现系统可用性等问题,持续提升应用韧性。
说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源,如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。 当资源不存在的时候,PATCH可能会去创建一个新的资源。
应用下的ECS实例)。 图4 选择攻击目标为弹性云服务器 (ECS) 选择攻击场景并填写场景的攻击参数,单击“完成”即可。场景包括主机资源类、主机进程类、主机网络类。 图5 弹性云服务器 (ECS)攻击场景 可选配置演练监控任务指标,演练监控指标,分为“稳定指标”和“监控指标”。
帐号管理 账号管理为用户提供针对华为云ECS、RDS、中间件等资源实例的人机帐号密码集中管理能力。多种帐号进行统一收口,避免多资源帐号密码易遗忘、多人知晓密码信息易泄漏等风险,用户可通过帐号管理来获取主机密码 图1 资源帐号管理流程 按照资源帐号管理流程完成相关配置后,方可从帐号管理页面获取到主机密码。
某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对应用在生产环境的架构韧性进行一次引流前的“排雷”和“验收”,以确保在正式引流时无重大稳定性风险。
建自定义策略。自定义策略中可以添加的授权项(Action)请参考策略和授权项说明。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可以
参数策略涉及到参数的删除,配置时请谨慎使用。 操作步骤 登录COC。 在左侧菜单栏选择“资源运维 > 自动化运维 > 参数中心”,单击“创建参数”,进入“创建参数”页面。 图1 创建参数 在“创建参数”页面填写基本信息,确定参数类型(参数名称、企业项目和参数类型生成后不可修改)。 图2 基本信息
补丁修复提供了用户可以修复补丁扫描出的不合规ECS/CCE/BMS实例的能力,补丁修复功能会将ECS或CCE实例上不合规的补丁进行升级或安装。 操作场景 通过Cloud Operations Center执行补丁修复功能。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维”
丁扫描或补丁修复作业。 操作场景 通过Cloud Operations Center查看创建补丁自动化任务。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维” ,单击“补丁管理”,进入“补丁管理”页面,单击页面上方“点击此处”配置自动化任务。 图1 点击此处
自定义SLA 租户可自由定制自己需要的SLA。 查询自定义SLA 登录COC。 在左侧菜单栏选择“基础配置 > SLA管理”页面。 在“SLA”页面选择“自定义SLA”页签,即可查看自定义SLA列表。 图1 SLA列表 单击搜索框,弹出搜索条件列表中选择对应的搜索条件,输入对应的
定时任务执行记录 查看定时任务执行记录 登录COC。 在左侧菜单栏选择“资源运维 > 自动化运维”,在“日常运维”模块单击“定时运维”,进入“定时运维”页面。 在“定时运维”页面,单击列表数据操作列的“更多 > 历史记录”,跳转定时任务“历史记录”页面。 图1 查看执行情况 单击
执行记录 脚本工单 作业工单 补丁工单 资源操作工单 父主题: 任务管理
事件管理 创建事件单 受理事件单 提交事件单解决方案 验证事件处理结果 查询事件单详情 事件相关枚举信息 父主题: 故障管理
ACKNOWLEDGED INCIDENT_STATUS_REJECTED 被驳回 REJECTED INCIDENT_STATUS_RESOLVED 已解决待验证 RESOLVED INCIDENT_STATUS_COMPLETED 已完成 COMPLETED 父主题: 事件相关枚举信息
租户创建的人员个数≤50个。 排班管理 排班角色 单个排班场景下的排班角色≤10个。 帐号管理 资源类型 目前支持纳管的资源类型: 弹性云服务器 ECS 目前支持托管(帐号导入)的资源类型: 弹性云服务器 ECS、分布式缓存服务 DCS、云数据库 RDS、分布式消息服务 DMS 帐号基线
操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入问题列表页面。单击右上角的“创建问题”,进入创建问题页面。 图1 问题列表 填写创建问题基本信息,点击“提交”。 图2 创建问题页面 问题标题:必填,简要填写问题描述 问题描述:必填,具体描述问题现网和对现网的影响,支持上传附件
API 应用资源管理 脚本管理 脚本工单 故障管理 补丁管理
创建排班 登录COC。 在左侧导航栏选择“基础配置 > 排班管理”页面,单击右上角的“创建排班”。 图1 排班管理页面 进入“创建排班”页面,可以填写排班场景信息,并添加排班角色后单击“提交”。若已有排班场景和排班角色,在“创建排班”页面中可以选择已有场景,并可查看某个场景下的角色。
通知管理为用户创建通知规则,通知规则包含事件通知、变更通知和问题通知。 当产生事件单、问题单或有变更单时,通知规则会根据事件/问题/变更信息和配置的通知规则进行信息匹配,解析出需要通知的人员、内容和发送通知的渠道,进行发送通知信息,实现了自动通知的功能。 事件和变更的通知模板为系统内置的,您可以根据您的场景选择通知模板。