检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
填写需安装UniAgent主机的详细信息。 主机IP:主机的IP。 操作系统:主机的操作系统,Linux或Windows。 登录账号:登录主机的账号。当操作系统为Linux时,建议使用root账号,可保证有足够的读写权限。 登录端口:访问主机的端口。 认证方式:认证方式为密码。 密码:登录主机的密码。
D 已解决待验证 RESOLVED INCIDENT_STATUS_COMPLETED 已完成 COMPLETED 父主题: 事件相关枚举信息
issues inc_type_p_change_issues 变更操作问题 Change operation problem 父主题: 事件相关枚举信息
ing 流转创建 Transfer creation incident_source_alarm 告警 alarm 父主题: 事件相关枚举信息
level_20 P2 P2 level_30 P3 P3 level_40 P4 P4 level_50 P5 P5 父主题: 事件相关枚举信息
资源列表默认展示资源的部分属性,如果您需要查看某个资源的资源详情,可按如下操作查看。 注意事项 暂不支持查看阿里云资源详情。 IDC离线资源仅支持查看虚拟机资源详情。 查看资源详情 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。 选择需要查看资源所在的云厂商。 默认选择“华为云”。
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生的
COC提供以资源为基础的资源管理视图。面向各类资源提供纳管能力,可建立资源拓扑;按照资源类型汇聚,支持按照标签查询资源列表,并提供UniAgent安装能力。 Global 应用管理 COC提供以应用为中心的资源管理视图。提供应用和资源关联关系的建模能力。按照“应用 > 区域 > 分组
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
故障定界和恢复:分析故障影响范围,恢复所有受影响应用。 若分析还有其他应用受影响,使用新增影响应用增加。 通过应用诊断可以快速定位故障根因,使用执行预案能够快捷处理故障。处理完成后需要修改应用状态为“已恢复”。 故障已恢复:检查故障处理结果和应用状态。 注意:将所有应用状态修改为已恢复状态才能走到故障已恢复阶段。
未关机的实例关机。 设置“镜像”。 公共镜像:常见的标准操作系统镜像,所有用户可见。包含操作系统以及预装的公共应用。请根据您的实际情况自助配置应用环境或相关软件。 私有镜像:用户基于云主机或者外部镜像文件创建的个人镜像,仅用户自己可见。包含操作系统、预装的公共应用以及用户的私有应
于记录故障恢复的时间节点,同时了解故障当前的进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 在左侧导航栏选择“故障管理 > WarRoom”。 可以查看WarRoom列表信息。 单击需要查看的WarRoom标题。
选择发现问题的来源,若选择“事件”、“告警”、“WarRoom”,需要关联对应工单。 来源单号 仅问题来源选择“事件”、“告警”、“WarRoom”时需要设置。 单击“关联单号”,选择对应工单。 发生时间 可选参数。请填写问题发生的时间。 问题应用 在下拉列表选择涉及问题的应用。 问题级别
云运维中心提供了多种方式生成事件来记录故障。如果汇聚告警工单转事件和原始告警触发自动生成事件两种被动生成事件的方式不满足您的业务需求,您还可以通过手动创建事件功能来记录。 前提条件 需要先在应用管理中创建您的应用。 注意事项 确认事件单的内容,并如实填写事件等级。 创建事件 登录云运维中心。 在左侧导航栏选择“故障管理
CMDB资源视角:以资源视角选择实例列表。 CMDB应用视角:以应用视角选择实例列表。 CMDB资源视角 资源类型 默认参数,不支持修改。 ECS 区域 在下拉列表中选择区域。 华北-北京一 目标实例 在筛选框设置条件,选择筛选出的实例。 - 勾选“同意安装插件并采集数据《Gues
操作场景 云运维中心提供了统一操作ECS实例的功能。通过批量ECS重装操作系统功能,您可以对ECS实例执行单独或批量重装操作系统的操作。 注意事项 如果存在运行中的实例,需要勾选“立即关机”。 如果不存在未关机的实例,则可直接提交执行。 无其他正在执行的工单,比如所选实例已有重启工单,则无法执行。
在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC混沌演练目前已支持弹性云服务器(ECS)、裸金属服务器(BMS)和Flexus应用服务器L实例(FlexusL)三种探针类武器的攻击对象,并提供
问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。问题管理包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。
账号下已纳管的应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我的待办的统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪 图2 应用资源统计数据 单击“待处理事件”、“待处理告警”、“我的待办”,可跳转至相应的运维事务。
和应用。 图4 应用固定排班列表 单击列表“操作”列的“编辑”,输入用户名,单击“确定”,可在排班页面查看已添加人员的排班。 图5 应用固定排班添加人员 应用排班+轮班场景 使用场景:适用不同应用按照轮班的班次进行排班。 前置条件:“应用排班”您需要先在应用管理中创建您的应用。 登录COC。