正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过调整模型参数对异常告警调优 由于超参设置或是数据特征发生变化,导致预测的数据不够准确,出现误告警,可以通过调整模型参数,对生成的异常告警进行调优。本章节介绍不同类型异常告警及调优方法。 调优配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置”页签,参考表1配置参数。
根据表或任务类型查看数据血缘 监控服务支持查看运维数据的数据血缘、关系及数量等信息。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 查看数据血缘 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。
用的插件。 绑定监控模板:为主机绑定在模板管理中创建的监控模板,系统会根据插件采集主机的各项监控指标。可以按主机绑定监控模板,也可以对主机进行分组,按分组绑定监控模板。 查看虚机报表:监控指标数据采集后,可以在虚机报表中查看。 父主题: 采集Linux主机监控指标
选择左侧导航栏的“隔离域”,默认显示“隔离域配置”页签。 单击“隔离域规划”,切换至“隔离域规划”页签。 该页签显示登录账号所属租户下的全部产品。 单击,展开需进行隔离域规划的产品。 单击“创建”。 配置隔离域规划参数,配置参数如表1所示,配置完成后,单击“确定”。 表1 隔离域规划参数说明 参数名称
配置需要升级告警的主机名称规则。 消息匹配 配置需要升级告警的消息匹配规则。 描述信息 填写描述信息。 更多操作 告警升级规则创建后,您还可以对规则进行以下操作。 表2 相关操作 操作名称 操作步骤 修改告警升级规则 在告警升级规则列表,单击待修改规则所在行“操作”列的“修改”。 修改配置信息,单击“确定”。
自定义作业名称的最大长度为128,可包含中文、字母、数字、下划线“_”、中划线“-”和中文括号()。 配置源文件参数,参数说明如表1所示,配置完成后,单击“添加服务器文件”。 等待源文件上传成功,将源文件上传至作业平台,如图1所示。 表1 源文件参数说明 参数名称 参数说明 运维账号 选择运维账号或手动
创建WarRoom事件通知 WarRoom是由运维代表决策,Oncall团队负责操作创建,针对重大故障的一种应急处置的协同机制,创建WarRoom,并选择相关人员进行通知。 在重大故障发生时,需要知会问题处理经验比较丰富的运维、开发和问题相关的外部专家,通过添加通知组功能提前预置。 前提条件 已获取服务
告警标记的作用是为一段时间内的告警打上标签。例如现网变更时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签,与正常告警进行区分。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建告警标记规则 进入AppStage运维中心。 在顶部导航栏选择服务。
AOM告警接入监控服务 应用运维管理AOM是云上应用的一站式立体化运维管理平台,实时监控应用及云资源,采集各项指标、日志及事件等数据分析应用健康状态,提供告警及数据可视化功能,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况。 AppStage运维中心支持将AOM产生的告警接入至监控服务中。
e,IaC)软件,它能自动化的进行资源编排,用于安全高效地预览、配置和管理云基础架构和资源,并提供自定义解决方案。 部署服务支持使用Terraform引擎(IaC2.0)能力通过实例包将业务部署至应用平台AppStage,同时支持对组件包、插件进行管理。 前提条件 已获取服务运维
将接入数据导流至数据表中 监控服务已接入的数据,会保存在已创建或者系统自动创建的Kafka的Topic中,需要创建导流任务,将数据导流至ClickHouse或Influxdb数据表中。 将数据导流至ClickHouse/Influxdb表 进入AppStage运维中心。 在顶部导航栏选择服务。
选择在指标仓库已创建的指标,创建指标请参见在运维中心指标仓库创建指标。 维度列表 来自于指标的逻辑实体上的维度,选择异常检测需要对哪些维度做检测。 ALL维度列表 选择需要过滤的维度。 维度过滤设置 只关注维度部分取值时,可以设置该参数对维度取值进行过滤。 指标类型 选择指标类型。 算法类型 选择固定阈值或动态阈值
管理开发中心推送的镜像包 您可以使用开发中心推包,将包发布到公有云镜像仓,并支持在软件仓库对包进行管理。 容器镜像地址分为镜像仓库、组织、镜像名和镜像tag。 共享镜像 镜像共享是以镜像名为最小单位。共享镜像后,该镜像名下所有tag的镜像都会被共享。 进入AppStage运维中心。
根据业务需要选择规模,本实践中选择集群规模为50节点。 购买集群 ECS服务器 购买1个ECS服务器,容灾场景下购买2个ECS服务器。 根据业务需要选择规格,本实践中选择规格为:通用计算增强型/2vCPUs/4GiB/c6.large.2 购买ECS 启用环境并录入账号信息,具体请参见环境配置及账号录入。
“确定”。 通知组添加完成后,会显示在通知组列表中,可以查看该通知组成员状态。 图1 添加通知组 更多操作 通知组创建后,您还可以对通知组进行以下操作。 表1 相关操作 操作名称 操作步骤 导出通知组 单击在通知组列表上方的“导出”,即可导出已添加的全部通知组。 编辑通知组 在通
告警修复是设置特定的命中条件,告警在发送通知之前将会进行预置的修复脚本,修复操作,自动帮助您修复简单的告警。 告警修复的触发场景如下: 告警上报时,满足现存的告警修复规则。 告警进入系统时满足告警屏蔽的规则,根据告警屏蔽规则的配置决定是否执行告警修复。 告警列表中对告警进行清除操作。 告警修复本身不影响
在隔离域列表中显示已创建的隔离域。 单击,展开需关联安全组的隔离域,默认显示“关联IP”页签。 在IP列表中查看已关联的IP信息,同时支持输入IP进行查询。 父主题: 规划隔离域为业务网络进行安全分组
创建运维事件并发送通知 监控服务支持对现网发生的可能造成或者已经造成服务中断、业务质量下降的系统告警等问题创建运维事件并发送通知。 创建运维事件并发送通知 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“故障通报
分配给后端服务器。本章介绍如何创建负载均衡实例。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建平台托管模式的实例,需规划隔离域,具体请参见在ENS中创建隔离域。 创建自管理模式的SLB实例,指的是将公有云ECS作为SLB主
"application/json" }, "statusCode" : 200 } } 状态码: 500 服务器内部错误或三方服务器内部错误。 { "error_code" : "AIAE.22001003", "error_msg" : "Internal