检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Reliability Engineer)设计的全面监控平台。该平台围绕故障生命周期的各个阶段构建,提供即开即用的解决方案。它集成了预防、检测、诊断、恢复、通报和改进功能,旨在提供一个一体化的可观测性解决方案。 微服务平台 微服务平台(NUWA Runtime,简称NUWA)是一款全代管式微服务计算
在judge日志中出现TypeError: not supported between instances of 'str' and 'float'提示。 解决方法 检查告警原始表指标字段的类型配置是否正确。 例如请求量指标错误配置为varchar类型,应该是数值类型,需要在MPPDB表管理中,将对应表字段类型调整正确。
judge日志中出现ERROR - fail to load错误提示,如下图 可能原因 日志中提示加载模型失败,可能是因为容器在启动时加载模型失败。 解决方法 依次单击“初始化Daemon”、“注册任务”和“启动任务”,重启judge,重新启动容器后观察是否恢复正常。 父主题: 异常检测Judge定时任务失败
应用场景 云上应用开发和管理 痛点 各种技术飞跃式进步,令人眼花缭乱,很多企业被动式的堆砌。 选择产品和解决方案时,缺乏全面视角和评估能力,缺少持续严谨性。 企业在新技术面前缺乏系统性的规划、设计和持续集成能力,只能进行孤岛式的局部创新。 运维保障任务需耗费团队大部分的时间与精力。
在WiseDBA中查看数据库异常诊断记录 异常诊断任务可以帮助我们发现和解决数据库性能和健康方面的问题。以下是一些常见的异常诊断任务: 查询性能分析:通过分析慢查询日志或使用性能分析工具,可以识别哪些查询语句执行缓慢,从而进行优化。 索引分析:检查表的索引使用情况,确定是否存在缺
KeyError 问题现象 在judge日志中出现KeyError提示。 可能原因 KeyError后面的字段存在问题,字段不存在或者字段值为空。 解决方法 在MPPDB表管理中检索告警原始表,查看表字段名是否与告警指标字段一致。 在MPPDB汇聚中新建任务,查询对应指标字段数据是否为空。
如果/etc/hosts文件自动部署用户没有写的权限,那么部署完之后,slb_agent的域名映射就会下发失败,导致业务部署完,无法在界面上对SLB机器执行同步、重启等操作。 解决方法 登录SLB实例主机,执行命令chmod 666 /etc/hosts,给/etc/hosts加上写的权限,默认是444,建议给666。
message: illegal param\",\"status\":-2}", "msg": "status was not in [200]", 解决方法 在VMS中修改主机的服务归属,具体请参见修改服务归属。 父主题: SLB部署失败相关问题
request错误提示,如下图: 可能原因 原始表数据量过大(超过500万),查询本次judge数据的SQL在10秒内没有执行完,后台mpp监控程序取消了本次查询。 解决方法 减少原始表数据量。 减少原始数据量,比如ttl可以减半。 如果是多个维度,可以拆成两个告警,原始表拆成多张表。 原始表的汇聚周期可以
SLB部署失败,日志详细信息提示如下: /etc/rc.d/init.d/functions: No such file or directory 原因分析 部署包选择错误。 解决方法 登录SLB实例主机,执行命令cat /proc/version,查看环境系统,如图1所示。 SLB分为ARM、X86两个版本,界面上部署时需要选择与环境系统一样的包。
Reliability Engineer)设计的全面监控平台。该平台围绕故障生命周期的各个阶段构建,提供即开即用的解决方案。它集成了预防、检测、诊断、恢复、通报和改进功能,旨在提供一个一体化的可观测性解决方案。 微服务平台 微服务平台(NUWA Runtime,简称NUWA)托管了一个微服务运行的所
allocate memory) nginx: [alert] munmap(FFFFFFFFFFFFFFFF, 524288000) failed" 解决方法 使用的机器最低规格为2C8G。 登录SLB实例主机,执行命令/opt/huawei/openresty/init.d/nginx restart,重启Nginx再同步。
lang.OutOfMemoryError:Java heap space。 维度数据问题,存在特殊字符,或者数据量和维度值数量较大。 解决方法 检查judge配置中“Dynamic Resource”按钮是否是打开状态,需要打开按钮。 在异常检测任务基础配置的“字段配置”页面
"后端服务器名称" in /.../server...conf:17 nginx: .../nginx.conf test failed [FAILED" 解决办法 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“监听管理”。 在监听管理页面,单击监听名称。
serverDomain STS服务器的地址。 nuwa.security.sts.configPath STS微服务证书路径,基础设施即代码(Infrastructure as Code,简称IaC)会将证书放在固定路径下,格式为/opt/huawei/certs/服务名/微服务名/微服务名.ini。
input syntax for type numeric报错。 可能原因 基础配置中减少维度后,告警结果表中字段未更新,字段数据写入错位。 解决方法 在异常检测任务基础配置的“字段配置”页面,在维度的“列名”新增一个空维度,并打开编辑器,手动增加一个空的维度值,保存后再去掉空维度,
count,检查返回值是否为5;若不是,执行命令vim /opt/huawei/logs/easyconf/confagent_monitor.count修改。 解决方法 一般为安全组做了网络限制,需要打通SLB到这些服务器的对应端口的网络,具体请参见更改安全组或加入安全组。 登录实例主机,执行命令rm
动态阈值告警任务,judge历史的原始详情中出现too much null size报错。 可能原因 告警原始表中存在大量空值或者表无数据。 解决方法 在MPPDB汇聚中新建任务,查询告警原始表中数据是否正常。 检查汇聚任务及上游数据处理环节(数据接入至Kafka的Topic、数据导
ers-monitoring和ers-manger有什么区别? ers-monitoring是安装监控插件cluster-monitoring所用的命名空间,如果想要监控CCE容器集群状态,需要安装cluster-monitoring监控插件,具体请参见使用插件模板为容器集群安装
常见问题 表1 Cloud Map常见问题 问题 报错原因 解决办法 “code”:403,no permission to access 业务没有权限访问中间件资源 登录Cloud Map管理台查看资源的授权信息。 如果自身的服务或微服务不在授权范围内,则没有访问权限,需要确认