检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
8分左右开始变慢,应用有超时的报错。 原因分析 查看CPU使用率监控指标,发现在16:08分左右实例的CPU使用率开始飙升到100%,且一直持续在高位线。 图1 CPU使用率 查看QPS、慢SQL数以及活跃连接数监控指标,发现在16:08分左右QPS突增,活跃连接数上涨,最终业务侧有较多的慢SQL产生。
修改Serverless的算力范围。当满足一定的触发条件时,就会自动触发Serverless实例算力变更。 算力变更的触发条件 通过云监控服务监控Serverless实例的CPU使用率、内存使用率。 当满足如下条件中的任何一种,就会自动触发Serverless算力扩容。 “CPU
过各种角度、范围分析成本和用量的趋势及驱动因素。 企业还可以通过成本中心的“成本监控”,及时发现计划外费用,做到成本的可监控、可分析和可追溯。 详细介绍请参见通过成本分析探索成本和使用量、通过成本监控识别异常成本。 父主题: 成本管理
过各种角度、范围分析成本和用量的趋势及驱动因素。 企业还可以通过成本中心的“成本监控”,及时发现计划外费用,做到成本的可监控、可分析和可追溯。 详细介绍请参见通过成本分析探索成本和使用量、通过成本监控识别异常成本。 父主题: 成本管理
请及时排查业务侧连接是否有效,优化实例连接,释放不必要的连接。 规格偏小,请对数据库进行规格扩容。 云监控服务目前可以监控数据库CPU、内存、磁盘、连接数等指标,并且设置告警策略,出现告警时可以提前识别风险。具体请参考《云监控服务用户指南》。 解决方法 通过内网连接数据库实例。用内网连接,不会出现因为带宽等原因的拥塞。
请及时排查业务侧连接是否有效,优化实例连接,释放不必要的连接。 规格偏小,请对数据库进行规格扩容。 云监控服务目前可以监控数据库CPU、内存、磁盘、连接数等指标,并且设置告警策略,出现告警时可以提前识别风险。具体请参考《云监控服务用户指南》。 解决方法 通过内网连接数据库实例。用内网连接,不会出现因为带宽等原因的拥塞。
备机冷数据预热 功能介绍 TaurusDB主备实例运行过程中,主节点监控LRU(Least Recently Used)链表,将发生活动的数据页(从存储中读取或缓存池内移动的数据页)同步给只读节点。只读节点会将相关页面提前读取到缓存池中,以提高只读节点倒换成主节点后的缓存命中率,降低倒换后的性能抖动。
备机冷数据预热 功能介绍 TaurusDB集群实例运行过程中,主节点监控LRU(Least Recently Used)链表,将发生活动的数据页(从存储中读取或缓存池内移动的数据页)同步给只读节点。只读节点会将相关页面提前读取到缓存池中,以提高只读节点倒换成主节点后的缓存命中率,降低倒换后的性能抖动。
场景1 慢查询导致CPU升高 问题原因:大量慢SQL导致实例CPU升高,需要优化相应的慢SQL。 排查思路: 查看CPU使用率和慢日志个数统计监控指标。 如果慢日志个数很多,且与CPU曲线吻合,可以确定是慢SQL导致CPU升高。 如果慢日志个数不多,但与CPU使用率基本一致,进一步查看行读取速率指标是否与CPU曲线吻合。
场景1 慢查询导致CPU升高 问题原因:大量慢SQL导致实例CPU升高,需要优化相应的慢SQL。 排查思路: 查看CPU使用率和慢日志个数统计监控指标。 如果慢日志个数很多,且与CPU曲线吻合,可以确定是慢SQL导致CPU升高。 如果慢日志个数不多,但与CPU使用率基本一致,进一步查看行读取速率指标是否与CPU曲线吻合。
业务侧云数据库GaussDB(for MySQL)实例上以往执行耗时8秒的查询,在11:00后耗时超过30秒。 原因分析 查看查询变慢对应的时间段中,实例CPU监控指标并无飙升情况且使用率一直都较低,因此排除了CPU冲高导致查询变慢的可能。 图1 CPU使用率 分析对应时间段该实例的慢日志,该SQL执
GaussDB(for MySQL)的临时盘主要是用于暂存数据库运行过程中产生的临时表、临时文件、Binlog Cache等。用户可以通过管理控制台实时监控到实例在不同时间段和粒度下的临时盘使用量和使用率,如下图所示: 图1 磁盘使用情况 随着数据库支撑业务的波动, 用户可能会发现临时盘占用率
istio-citadel证书机制导致每隔45天出现断连 场景描述 业务侧发现数据库每隔45天同一时间,多台数据库实例的连接数骤降。查看服务端连接数监控指标如下: 客户端出现大量报错如下: 原因分析 排查业务侧是否有间隔45天的定时任务。 客户端如果使用了istio等证书加密机制,分析证书
业务侧云数据库TaurusDB实例上以往执行耗时8秒的查询,在11:00后耗时超过30秒。 原因分析 查看查询变慢对应的时间段中,实例CPU监控指标并无飙升情况且使用率一直都较低,因此排除了CPU冲高导致查询变慢的可能。 图1 CPU使用率 分析对应时间段该实例的慢日志,该SQL执
图2 查询慢SQL 查看慢查询中的表数据量约90GB,数据行数约10亿行,且通过图2中的执行时间可以看出,两个SQL执行了40~50分钟,跟监控中内存增长的时间基本一致,确定是临时表内存不受控导致。 解决方案 升级实例规格,将内存利用率维持在合理范围,防止业务突增导致实例OOM。变
TaurusDB的临时盘使用说明 TaurusDB的临时盘主要是用于暂存数据库运行过程中产生的临时表、临时文件、Binlog Cache等。用户可以通过管理控制台实时监控到实例在不同时间段和粒度下的临时盘使用量和使用率,如下图所示: 图1 磁盘使用情况 随着数据库支撑业务的波动, 用户可能会发现临时盘占用率
图2 查询慢SQL 查看慢查询中的表数据量约90GB,数据行数约10亿行,且通过图2中的执行时间可以看出,两个SQL执行了40~50分钟,跟监控中内存增长的时间基本一致,确定是临时表内存不受控导致。 解决方案 升级实例规格,将内存利用率维持在合理范围,防止业务突增导致实例OOM。变
istio-citadel证书机制导致每隔45天出现断连 场景描述 业务侧发现数据库每隔45天同一时间,多台数据库实例的连接数骤降。查看服务端连接数监控指标如下: 客户端出现大量报错如下: 原因分析 排查业务侧是否有间隔45天的定时任务。 客户端如果使用了istio等证书加密机制,分析证书
则触发告警。 支持的事件监控以及监控异常的处理建议,请参见事件监控支持的事件说明。 告警规则 该条告警所在告警规则的名称/ID。 最新更新时间 该条告警的最新触发时间。 操作 单击“告警指标”,在右侧弹窗中,查看所选时间段内的指标监控视图。 智能诊断 基于运行数据结合智能算法对
PU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发告警。 CPU使用率高的处理建议,请参见TaurusDB CPU使用率高的解决方法。 当告警类型选择事件监控时,触发告警具体的事件为一个瞬间的事件。例如:创建实例业务失败,则触发告警。 支持的事件监控以及监控异常的处理建议,请参见事件监控支持的事件说明。