检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可以在告警任务“基础”中增加一个空白维度,并手动添加一个空白维度值,保存后,再将空维度删除并保存,此时告警结果表会更新,并带有alert_type字段。 父主题: 运维中心监控服务
进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“EAP&JOB > 流程 > 历史”,进入“历史”页面。 在列表中查看流程的执行历史。 父主题: 使用EAP进行流程管理
流程是通过使用事件自动化平台(Event & Action Platform,EAP)所提供的运维中心各个子系统的系统动作,组合编排来解决复杂运维场景,如需查看当前已上架的EAP动作,请参见查看已上架的EAP动作,可以了解已上架动作类型、作用、输入和输出参数。本章节介绍如何创建及执行流程。
告警配置 AppStage运维中心支持对虚拟机监控数据或业务数据配置告警,及时掌握虚拟机状态,容器接入并安装监控插件后会自动生成告警。 配置虚拟机告警 配置虚拟机告警前需要先完成主机监控接入,并且已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 进入AppStage运维中心。
使小幅度下降的异常不告警,针对阈值线过紧的情况,图1的异常通过敏感度调节不了,因为阈值线相对是合理的 配置count_threshold参数,如果不关注请求量很少的异常,可以配置该参数,建议非必要情况下不要配置该参数,可能会出现遗漏告警的情况。 毛刺告警 两三个显著的毛刺点异常,如图2所示。
request 问题现象 judge历史的原始详情中出现canceling statement due to user request错误提示,如下图: 可能原因 原始表数据量过大(超过500万),查询本次judge数据的SQL在10秒内没有执行完,后台mpp监控程序取消了本次查询。 解决方法
是否与告警指标字段一致。 在MPPDB汇聚中新建任务,查询对应指标字段数据是否为空。 确认汇聚任务及上游数据处理环节(数据接入至Kafka的Topic、数据导流至Chickhouse表)是否存在异常。 父主题: 异常检测Judge定时任务失败
ickhouse表)是否存在异常。 修复异常后执行补数据操作。 选择指标仓库中的视图“Warehouse”作为异常检测数据,可在指标仓库异常检测视图详情页的“补数据”页签进行数据回补。 选择指标仓库中的指标“Indicator”作为异常检测数据,可在“AI辅助诊断 > 任务配置 >
ers-monitoring是安装监控插件cluster-monitoring所用的命名空间,如果想要监控CCE容器集群状态,需要安装cluster-monitoring监控插件,具体请参见使用插件模板为容器集群安装插件,安装后该插件会采集容器的监控数据,同时生成ers-monit
judge历史的原始详情中出现judge_data_size(in):0提示。 可能原因 judge没有获取到数据。 解决方法 检查告警原始表汇聚任务配置的汇聚提前时间和judge任务的汇聚提前时间,保证对应时间点能够获取到数据即可。 操作步骤 找到告警原始表对应的汇聚任务(MP
fail to load model json 问题现象 judge日志中显示trainModel is null或trainModel is {},并且提示fail to load model json,表示训练完成后judge未成功加载训练模型。 解决方法 依次单击“初始化D
初始化Cloud Map 使用NUWA框架,只要增加对应配置,框架即会完成Cloud Map的初始化。 这些配置需要写到nuwa框架可以读到的文件里,一般是nuwa-xxx.properties,nuwa-xxx.yaml文件。因为Cloud Map的Client全局单例,所以可以直接通过NuwaMapClientFactory
ERROR - fail to load 问题现象 judge日志中出现ERROR - fail to load错误提示,如下图 可能原因 日志中提示加载模型失败,可能是因为容器在启动时加载模型失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启ju
当前支持纳管的Linux主机类型包括弹性云服务器ECS、裸金属服务器BMS。 如果已纳管了CBH堡垒机,在纳管Linux主机时需要确保纳管的主机与CBH堡垒机网络互通。弹性云服务器主机被纳管时,该主机会同时被纳管到对应服务环境的CBH堡垒机下,可以在“弹性云服务器”页面使用CBH堡垒机登录业务主机。
not supported between instances of 'str' and 'float'提示。 解决方法 检查告警原始表指标字段的类型配置是否正确。 例如请求量指标错误配置为varchar类型,应该是数值类型,需要在MPPDB表管理中,将对应表字段类型调整正确。 父主题:
解决方法 检查judge配置中“Dynamic Resource”按钮是否是打开状态,需要打开按钮。 在异常检测任务基础配置的“字段配置”页面,在维度的“维度值”中检查告警维度值是否存在特殊字符。 通过正则匹配和阈值限制降低维度值数量。 父主题: 异常检测Judge定时任务失败
not be 0,说明维度值为空。 解决方法 在异常检测任务基础配置的“字段配置”页面,查看获取到的维度值是否为空。 在MPPDB汇聚中新增任务,查询告警原始表数据是否正常。 查看上游任务(数据接入至Kafka的Topic、数据导流至Chickhouse表)是否正常。 父主题: 异常检测Judge定时任务失败
judge日志持续日志打印,单个文件过大时,打开或者下载会提示失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启judge后会生成新的judge日志文件,再打开查看即可。 父主题: 异常检测Judge定时任务失败
行排序数:该指标用于统计该段时间内已排序的行数。 扫描表排序数:该指标用于统计该段时间内通过扫描表完成的排序数。 打开表缓存查找的命中数/未命中数 打开表缓存查找的命中数:该指标用于统计该段时间内打开表缓存查找的命中数。 打开表缓存查找的未命中数:该指标用于统计该段时间内打开表缓存查找的未命中数。 未关闭的长事务个数
快速配置方式创建的告警需要在“AI辅助诊断 > 任务配置 > 异常检测 > 汇聚任务管理”中对相应的告警原始表汇聚任务依次单击“元数据清理”、“补数据”,进行数据回补。 使用Warehouse,即指标仓库中的视图作为异常检测数据创建的告警,需要在异常检测视图详情页的“补数据”页签进行数据回补。