检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
保存异常检测告警配置时报错 问题现象 在异常检测任务告警配置页面,单击“保存”,出现dimensions value size over 2000错误提示,即异常检测任务配置的维度数超过2000个。 解决方法 维度为URL类型,如/xxx/{id}/aaa,接口中包含参数变量,当变量值较多时
快速配置异常检测任务 异常检测基于运维领域的数据的历史特征,对其未来的走向进行预测。一旦当前实际数据和预测值偏差到一定程度,则认为发生异常,会生成告警并上报至告警系统。 异常检测的能力是基于指标仓库、MPPDB数据库及异常检测服务所构建的。指标仓库定义了数据的来源和数据的计算方式。
新增异常检测任务 根据业务需要分步骤创建异常检测任务,配置数据及模型等内容。当异常检测配置完成后可以生成相应告警,也可以在业务报表开发“告警总览页面”类型的报表时使用告警大盘。 操作流程 步骤一:新增任务:新增空的异常检测任务。 步骤二:配置数据来源:定义异常检测数据来源。 步骤三
配置异常检测任务 快速配置异常检测任务 新增异常检测任务 通过调整模型参数对异常告警调优 父主题: 监控资源和应用
异常检测Judge定时任务失败 KeyError TypeError: not supported between instances of 'str' and 'float' TypeError("Cannot index by location index with a non-integer
通过异常检测上报告警 AIOps的异常检测基于运维领域的数据的历史特征,对其未来的走向进行预测。一旦当前实际数据和预测值偏差到一定程度,则认为发生异常,会生成告警并上报至告警系统。 在AIOPS中,异常检测算法分为两种,固定阈值和动态阈值。 固定阈值就是简单设置上限或者下限值。一旦数据超过上限或是低于下限则发生异常
KeyError 问题现象 在judge日志中出现KeyError提示。 可能原因 KeyError后面的字段存在问题,字段不存在或者字段值为空。 解决方法 在MPPDB表管理中检索告警原始表,查看表字段名是否与告警指标字段一致。 在MPPDB汇聚中新建任务,查询对应指标字段数据是否为空
通过调整模型参数对异常告警调优 由于超参设置或是数据特征发生变化,导致预测的数据不够准确,出现误告警,可以通过调整模型参数,对生成的异常告警进行调优。本章节介绍不同类型异常告警及调优方法。 调优配置方法 在“异常检测”页面,单击异常检测任务所在行“操作”列的“模型”,默认显示“算法配置
ERROR - fail to load 问题现象 judge日志中出现ERROR - fail to load错误提示,如下图 可能原因 日志中提示加载模型失败,可能是因为容器在启动时加载模型失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启judge
PSQLException: ERROR: syntax error at or near 问题现象 judge历史的原始详情中出现PSQLException: ERROR: syntax error at or near报错。 可能原因 在judge日志的ad-agent日志中查看到报错
TypeError("Cannot index by location index with a non-integer key") 问题现象 在judge日志中出现TypeError("Cannot index by location index with a non-integer
too much null size 问题现象 动态阈值告警任务,judge历史的原始详情中出现too much null size报错。 可能原因 告警原始表中存在大量空值或者表无数据。 解决方法 在MPPDB汇聚中新建任务,查询告警原始表中数据是否正常。 检查汇聚任务及上游数据处理环节
fail to load model json 问题现象 judge日志中显示trainModel is null或trainModel is {},并且提示fail to load model json,表示训练完成后judge未成功加载训练模型。 解决方法 依次单击“初始化Daemon
judge日志无法查看,提示get request error 问题现象 查看judge日志任务时,出现get request error错误提示。 可能原因 judge日志持续日志打印,单个文件过大时,打开或者下载会提示失败。 解决方法 依次单击“初始化Daemon”、“注册任务
canceling statement due to user request 问题现象 judge历史的原始详情中出现canceling statement due to user request错误提示,如下图: 可能原因 原始表数据量过大(超过500万),查询本次judge数据的
PSQLException: ERROR: invalid input syntax for type numeric 问题现象 judge历史的原始详情中出现PSQLException: ERROR: invalid input syntax for type numeric报错
judge长时间处于SUBMIT状态直至失败 问题现象 judge记录一直处于提交未执行SUBMIT状态,直至失败FAIL。 可能原因 后端任务内存溢出,可以在训练日志中的ad-agent日志找到报错java.lang.OutOfMemoryError:Java heap space
judge日志大小1KB,且不刷新日志内容 问题现象 judge日志大小1KB,且不刷新日志内容。 可能原因 告警原始表中存在字段值和字段类型不一致,导致解析失败。 解决方法 检查告警原始表中的数据是否有异常数据。 例如:数值类型的字段,值为NAN,可能是没有做除数为0的保护,修复异常
TypeError: not supported between instances of 'str' and 'float' 问题现象 在judge日志中出现TypeError: not supported between instances of 'str' and 'float
judge_data_size(in):0 问题现象 judge历史的原始详情中出现judge_data_size(in):0提示。 可能原因 judge没有获取到数据。 解决方法 检查告警原始表汇聚任务配置的汇聚提前时间和judge任务的汇聚提前时间,保证对应时间点能够获取到数据即可