检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式是什么? 故障模式是对云应用面临的潜在风险进行分析和评估的结果,混沌演练平台预置华为云多年积累的故障模式数据,使用FT-FMEA故障分析法帮助您分析云应用存在的潜在风险。 父主题: 韧性中心常见问题
登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面 在集成管理页面有待集成中选择“Other Monitoring Systems 自定义集成”,单击“接入集成”会跳转至集成接入步骤页面,可填写集成监控系统的简称和全称,并根据提示接入您的监控系统,名称支持重新命名。
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
如何在不重启实例的情况下重置密码? COC提供了管理员/非管理员账号重置密码的公共脚本,通过该脚本实现重置密码效果,不会重启实例,您可通过执行相应的公共脚本来重置实例(目前支持ECS和BMS资源类型)的密码。 图1 执行重置密码公共脚本 您在COC中执行公共脚本时,需要选择实例,而能够选择到实例的前提条件为:
现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 您可以在快速配置中心完成云运维中心配置和云服务配置: 云运维中心配置:涵盖资源应用管理、自动化运维、故障管理、变更管理、混沌演练5个场景的配置任务,您可以根据自身需要,按场景完成各项配置任务,配置完成后,即可在云运维中心对应场景中进行相关运维操作。
提供集成式运维能力,支持集中管控和运维。 ITSM、ITOM、专家服务相互协同,形成合力。 无需多平台间跳转,站内闭环,夯实一站式体验。 一体化解决方案 化零为整,原子化运维能力实现有机融合。 沉淀华为云运维专家经验,提供场景化运维解决方案。 安全生产、运维大脑、故障管理等优秀实践使能客户极简运维。
优化顾问 操作场景 您可以在云运维中心总览页快速查看资源风险项,该功能使用优化顾问OA服务,提供大量检查项能力和优化建议,例如ECS实例规格检查,资源实例或集群是否开启自动备份等。 优化顾问 登录云运维中心。 进入COC“总览”后,可以查看优化顾问信息。 单击“查看风险项”可查看TOP10风险项清单。
演练任务 操作场景 管理混沌演练任务,查看演练记录。 创建演练任务 登录COC。 在左侧菜单栏选择“韧性中心 > 混沌演练”。 单击左上方“演练任务”。 单击“创建演练任务”。 同时也可以通过演练规划接单功能进入创建演练任务页面,详细步骤请参考演练规划。 设置“基础信息”。 表1
概述 定时运维页面展示所有定时任务详情和执行记录。您可以在这里创建定时任务,也可以管理已创建的定时任务。创建定时任务后,系统按确定时间或周期定时触发脚本执行、作业管理等操作。 定时运维包含如下几项核心要素: 定时设置:单次执行,周期执行(设置简单周期或Cron表达式)。 任务类型:脚本,作业。
云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。 COC提供以下功能: 运维态势感知大屏,面向不同角色运维人员的专属运维BI看板,辅助管理层洞察决策和优化改进。 资源全生命周期管理,提供资源定义、申请、发放、运
在“日常运维”模块单击“作业管理”,进入作业管理页面。 单击“公共作业”页签,进入公共作业页面。 勾选“所有作业”,选择“ECS重启”,单击“执行”。 图5 选择作业执行 设置“执行类型”和“基本信息”。 图6 “执行类型”和“基本信息”参数配置 表1 “执行类型”和“基本信息”参数说明
获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。接口的认证鉴权请参见认证鉴权。 响应示例如下,其中projects下的“id”即为项目ID。 { "projects":
进行通知。设置通知人员信息详细操作请参考编辑用户信息操作步骤。 单击“提交”,完成定时任务创建。 执行的作业和脚本可在本服务左侧菜单“自动化运维”>“作业管理”和“脚本管理”模块中进行设置。 父主题: 定时运维
删除时间,则会影响删除前通知时间。 (可选)单击“添加标签”,输入标签的键和值。 标签的键仅支持包含数字、字母和_- . : /= + @特殊字符,限制长度1-128个字符。 标签的值仅支持包含数字、字母和_- . : /= + @特殊字符,限制长度1-256个字符。 单击“确定”,完成参数创建。
混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
OS合规性问题闭环SLA; 图1 一站式资源运维 补丁管理:COC提供OS补丁管理能力,支持对Linux下的Huawei Cloud EulerOS、CentOS、EulerOS三种系统进行补丁扫描和修复,并且支持ECS节点和CCE集群两种场景。COC通过补丁基线中的规则,对主机
操作步骤 登录COC。 在左侧菜单栏单击“故障管理 > 告警管理”,可以查看汇聚告警或原始告警列表信息。 在汇聚告警搜索框中输入告警单号、集成告警名称,“回车”进行搜索。 汇聚告警包含当前告警和历史告警。 图1 告警列表 父主题: 告警管理
补丁管理 概述 补丁基线 补丁扫描 补丁修复 查看扫描和修复详情 补丁自动化操作 父主题: 自动化运维
在左侧导航栏选择“资源管理 > 应用资源管理”。 选择需要同步资源所在的云厂商。 默认选择“华为云”。 同步其他云厂商资源需要先在多云配置接入其他云厂商账号。相关操作请参考接入其他云厂商。 同步阿里云资源操作前提: 需要用户在阿里云中开通“资源中心”服务。 登录阿里云界面,进入“资源管理”,在“
影响应用管理 操作场景 影响应用管理主要是管理在故障发生时,涉及的影响应用有哪些,并根据应用诊断,响应预案快速恢复应用。 操作步骤 登录COC。 左侧菜单栏选择“故障管理 > WarRoom”,可以查看WarRoom列表信息。 单击WarRoom列表中WarRoom名称,进入对应的“WarRoom详情”页面。