云数据库 GAUSSDB NOSQL-事件监控支持的事件说明

时间:2023-11-10 12:13:48

事件监控支持的事件说明

表1 云数据库 GaussDB NoSQL事件监控支持的事件说明

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

NoSQL

创建实例业务失败

NoSQLCreateInstanceFailed

重要

一般是由于实例配额不足或底层资源不足等原因导致。

先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。

无法创建数据库实例。

变更规格失败

NoSQLResizeInstanceFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源再重试规格变更操作。

业务中断。

添加节点失败

NoSQLAddNodesFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。

删除节点失败

NoSQLDeleteNodesFailed

重要

一般是由于底层释放资源失败导致。

重新尝试删除节点。

扩卷失败

NoSQLScaleUpStorageFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源再重试扩卷操作。

如果磁盘满,会导致业务中断。

重置密码失败

NoSQLResetPasswordFailed

重要

一般是由于重置密码命令超时导致。

重新尝试重置密码操作。

修改参数模板失败

NoSQLUpdateInstanceParamGroupFailed

重要

一般是由于修改参数模板命令超时导致。

重新尝试修改参数模板操作。

设置备份策略失败

NoSQLSetBackupPolicyFailed

重要

一般是由于数据库连接异常导致。

重新重试设置备份策略操作。

创建手动备份失败

NoSQLCreateManualBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

创建自动备份失败

NoSQLCreateAutomatedBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

实例运行状态异常

NoSQLFaultyDBInstance

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

NoSQLDBInstanceRecovered

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

NoSQLFaultyDBNode

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并提交工单。

可能导致数据库服务不可用。

节点运行状态异常已恢复

NoSQLDBNodeRecovered

重要

针对灾难性的故障,NoSQL有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

实例主备切换

NoSQLPrimaryStandbySwitched

重要

在手动触发的主备倒换或节点故障自动触发的故障倒换场景下,会上报该事件。

不需要处理。

出现热点分区键

HotKeyOccurs

重要

客观上是因为主键设置不合理,使得热点数据集中分布在一个分区。客户端不合理的应用程序设计,造成对某一key的频繁读写。

1. 选择合理的分区键。

2. 业务增加缓存,业务应用先从缓存中读取热点数据。

影响业务请求成功率,存在影响集群性能及稳定性的风险。

出现超大分区键

BigKeyOccurs

重要

主键设计不合理,单个分区的记录数或数据量过大,引起了节点负载不均。

1. 选择合理的分区键

2. 基于现有分区键,增加分区键散列。

随着数据量增长,集群稳定性会下降。

数据盘空间不足

NoSQLRiskyDataDiskUsage

重要

数据盘空间不足,产生此告警。

请参见对应服务用户指南中“扩容磁盘”的内容,进行磁盘扩容。

实例被设为只读模式,数据无法写入。

数据盘空间已扩容并恢复可写

NoSQLDataDiskUsageRecovered

重要

数据盘空间已扩容并恢复可写,产生此事件。

无需处理。

创建索引失败

NoSQLCreateIndexFailed

重要

业务负载超过实例规格瓶颈,此时再创建索引会耗费更多实例资源,导致响应变慢甚至卡顿,最终超时,引起索引创建失败。

1、根据业务负载,选择匹配的实例规格

2、在业务低峰期创建索引

3、使用后台方式创建索引

4、索引字段,结合业务进行合理选择。

索引创建失败或不完整,导致索引无效,需要删掉索引重新创建。

发生写入降速

NoSQLStallingOccurs

重要

写入速度快,接近集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况

1. 根据业务的最大写请求速率,调整集群规模或者节点规格

2. 衡量业务的最大写请求速率,分散业务写峰值速率

影响业务的请求的成功率

发生写入停止

NoSQLStoppingOccurs

重要

写入速度过快,达到集群规模和实例规格范围允许最大写能力,从而触发数据库自身的限流机制,会发生请求失败情况

1. 根据业务的最大写请求速率,调整集群规模或者节点规格

2. 衡量业务的最大写请求速率,分散业务写峰值速率

影响业务的请求的成功率

重启数据库失败

NoSQLRestartDBFailed

重要

一般是由于实例状态异常等原因导致。

提交工单让运维处理。

数据库实例状态可能存在异常。

恢复到新实例失败

NoSQLRestoreToNewInstanceFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源,重新尝试添加新节点。

无法恢复到新的数据库实例。

恢复到已有实例失败

NoSQLRestoreToExistInstanceFailed

重要

一般是由于备份文件下载或恢复失败等原因导致。

提交工单让运维处理。

当前数据库实例可能处于不可用状态。

删除备份文件失败

NoSQLDeleteBackupFailed

重要

一般是由于备份文件从obs删除失败导致。

重新尝试删除备份文件。

切换慢日志明文开关失败

NoSQLSwitchSlowlogPlainTextFailed

重要

一般是由于引擎不支持切换等原因导致。

请查阅NoSQL用户指南,确认引擎支持打开慢日志明文开关。提交工单让运维处理。

绑定EIP失败

NoSQLBindEipFailed

重要

一般是由于节点状态不正常,节点已经绑定EIP或EIP非法等原因导致。

检查节点是否正常,EIP是否合法。

无法通过公网访问数据库实例。

解绑EIP失败

NoSQLUnbindEipFailed

重要

一般是由于节点状态不正常,节点已经未绑定EIP等原因导致。

检查节点和EIP状态是否正常。

修改参数失败

NoSQLModifyParameterFailed

重要

一般是由于参数取值非法等原因导致。

排查参数值是否符合在合法范围内,提交工单让运维处理。

参数模板应用失败

NoSQLApplyParameterGroupFailed

重要

一般是由于实例状态异常导致参数模板无法应用等原因导致。

提交工单让运维处理。

开启或关闭SSL失败

NoSQLSwitchSSLFailed

重要

一般是由于修改SSL命令超时导致。

重新提交一次或者提交工单处理,并先保持切换之前使用SSL的连接方式。

是否使用SSL连接。

单行数据量太大

LargeRowOccurs

重要

用户单行数据量过大,可能会导致查询超时,进而节点OOM挂掉等各种故障发生。

1. 对每列和每行的写入长度做限制,遵从规范,使得单行的的key和value长度和不超过阈值。

2. 排查业务是否出现异常写入和异常编码,导致写入大row。

过大的单行记录,随着数据量增长,集群稳定性会下降。

support.huaweicloud.com/productdesc-nosql/nosql_10_1105.html