检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
磁盘监控告警阈值太低,告警频繁 问题现象 DWS集群磁盘使用率达到80%就出现告警,告警频繁。 原因分析 集群配置的告警监控阈值不合理。 处理方法 可在GaussDB(DWS)管理控制台设置告警的触发条件,指定达到磁盘使用率、告警持续时间及告警频次。
实时通知: 通过在告警规则中开启消息通知服务,当云服务的状态变化触发告警规则设置的阈值时,系统通过短信、邮件通知或发送消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。
查看监控指标 操作场景 云服务平台提供的云监控,可以对云数据库RDS的运行状态进行日常监控。您可以通过管理控制台,直观地查看云数据库RDS的各项监控指标。您可以查看实例监控。 由于监控数据的获取与传输会花费一定时间,因此,云监控显示的是当前时间5~10分钟前的云数据库RDS状态。
通过云监控服务,可以按时间轴查看连接数、PPS、流入/流出流量等指标。通过创建告警规则,设置监控阈值并配置通知,让您在第一时间得知NAT网关服务资源发生异常,迅速处理故障,避免因资源问题造成业务损失。
通过云监控服务,可以按时间轴查看EIP服务的IP与带宽资源的流量、带宽、带宽使用率的监控数值,动态告警分析潜在风险。通过创建告警规则,设置监控阈值并配置通知,让用户在第一时间得知EIP服务资源发生异常,迅速处理故障,避免因资源问题造成业务损失。
调整监控阈值 在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > CPU和内存 > 挂起的内存量”,根据实际需要,适当增加该告警的监控阈值。 等待5分钟,查看该告警是否消除。 是,处理完毕。 否,执行8。
否,执行6 调整监控阈值 在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 任务 > 正在挂起的任务”,根据实际需要,适当增加该告警的监控阈值。 等待5分钟,查看该告警是否消除。 是,处理完毕。
首期支持华北(廊坊)、华东(上海)、华南(广州)、西南(贵阳)、华南(深圳)五个探测点实时监控网站,后续探测点和能力不再演进,如有诉求请使用广域网质量监控,具体操作请参见广域网质量监控(公测)。 目前站点监控功能免费。
如果部分阈值类监控告警经评估后对业务影响可忽略、或告警阈值可进行调整,用户也可以根据需要自定义集群监控指标,或屏蔽对应告警,使告警不再上报。 MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标,相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考。
可将关注的一个或多个阈值规则、主机或组件的状态信息分别置于同一图表中进行监控。 阈值状态图表:实时监控阈值规则的状态。 图3 阈值状态图表 添加阈值状态图表前请先创建阈值规则,否则将无法添加阈值状态图表。 主机状态图表:实时监控主机的状态。
查看“Yarn上运行失败的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下失败的任务数”,修改该监控的阈值。执行6。
查看“Yarn被终止的任务数超过阈值”告警详情中的“附加信息”,确认监控阈值是否设置过小。 是,执行3。 否,执行4。 选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Yarn > 其它 > root队列下被杀死的任务数”,修改该监控的阈值。执行6。
指标类告警:实时监控环境中主机、组件等资源使用情况,根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。
配置MRS集群告警阈值(MRS 3.x及之后版本) 登录FusionInsight Manager。 选择“运维 > 告警 > 阈值设置”。 在监控分类中选择集群内指定主机或服务的监控指标。
monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Source,单位:秒。
主机信息(可选) 配置监控阈值后,系统只会在数据库服务器监控阈值范围内对数据进行分批次的加密,资源使用率超过阈值后停止加密,降低对业务的影响。如果条件允许,建议配置。 主机IP 设置主机IP地址。 主机端口 设置主机SSH服务端口,默认SSH服务端口为22。
monTime 0(不开启) 线程监控阈值,更新时间大于阈值时重新启动该Source,单位:秒。
spoolDir - Spooldir source的监控目录,flume运行用户需要对该目录具有可读可写可执行权限。 monTime 0(不开启) 线程监控阈值,更新时间超过阈值后,重新启动该Source,单位:秒。
常见的关键内部监控和统计:键个数、键过期个数、容量占用量、pubsub通道个数、pubsub模式个数、keyspace命中、keyspace错过。 自定义监控阈值及告警 提供基于各项监控制定阈值告警,支持客户自定义,便于及时发现业务异常。 备份恢复 支持。
deleteMicroserviceSchema 更新微服务依赖关系 engine updateMicroserviceDependency 更新微服务属性 engine updateMicroserviceProperty 更新微服务 engine updateMicroservice 更新监控阈值