检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45655 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名
MonitorServer每隔一个小时健康检查时,检查当前系统中的证书文件是否已过期。如果服务端证书已过期,产生该告警。服务端证书恢复的有效期内,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24015 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名
告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 主机名 产生告警的主机名。 对系统的影响 ClickHouse服务当前的部署不具备跨AZ高可用能力。 可能原因 开启跨AZ高可用之后,同一个shard的所有副本节点在一个AZ内。 处理步骤 修改副本节点AZ
e中设置的百分比时,则存在数据倾斜且上报告警。 告警属性 告警ID 告警级别 是否可自动清除 45436 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 表名 产生告警的库名.表名 对系统的影响 Cl
数据保护技术 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,
ZooKeeper”,在“配置”页签查看“clientPort”的值。 服务端topic权限配置。 将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。 安全认证。 安全认证的方式有三种:Kerberos认证、SSL加密认证和
MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
FE中和BE交互的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中和BE交互的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。该线程池为FE端ThriftServer的工作线程池,对应“fe.conf”文件中的“rpc_port”,用于和BE进行交互。
ient/conf 检查客户端节点网络连接。 在安装客户端过程中,系统会自动配置客户端节点“hosts”文件,建议检查“/etc/hosts”文件内是否包含集群内节点的主机名信息,如未包含,需要手动复制解压目录下的“hosts”文件中的内容到客户端所在节点的hosts文件中,确保本地机器能与集群各主机在网络上互通。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 可能导致查询或写入延迟。 可能原因
ALM-50211 BE的各种定期汇报任务在FE端的队列长度超过阈值 告警解释 系统每30秒周期性检查BE的各种定期汇报任务在FE端的队列长度,当检查到该值超出阈值(默认值为10)时产生该告警。该值反映了汇报任务在Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。
al。 回答 这种情况是由于磁盘存在IO错误,处理方法如下: 方法一:登录FusionInsight Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页
al。 回答 这种情况是由于磁盘存在IO错误,处理方法如下: 方法一:登录FusionInsight Manager页面,检查Manager界面上是否磁盘IO异常的告警,如果有,可参考对应的告警帮助文档,通过更换硬盘恢复。 方法二:登录FusionInsight Manager页
查看并导出健康检查报告,健康检查结果上只存在这两个主机报错:“安装目录及数据目录检查: 目录下文件异常. 请检查安装目录和数据目录下的内容”。 图1 健康检查结果 安装补丁的影响 安装补丁后需要重启服务才能生效,重启服务期间引起服务暂不可用。 安装补丁后,需要重新下载安装全量的客户端,
还原DBService HA模块的SSL配置 操作场景 本任务将对安装DBService的集群进行还原DBService服务HA模块SSL的操作。 前提条件 DBService服务HA模块已开启SSL配置。 检查DBService服务HA模块是否开启SSL配置: 查看“$BIGD
Driver是否支持对接dbcp2? 答: Hive driver不支持对接dbcp2数据库连接池。 dbcp2数据库连接池调用isValid方法检查连接是否可用,而Hive对于这个方法的实现就是直接报错。 父主题: 周边生态对接类
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HA证书即将过期,如果过期,主备模式下FlinkServer的HA功能会受到影响,将导致主备模式下FlinkServer提交Flink作业功能无法正常使用,双主模式不受影响。 可能原因 用户HA证书文件即将到期。
L语句的执行。 当前的健康检查机制是通过新建session连接,并在该session所在的线程中执行健康检查命令HEALTHCHECK来判断Spark JDBCServer的健康状况,因此HiveServer2-Handler-Pool必须保留一个线程,用于处理健康检查的sess
/ 否,清理磁盘空间。 是,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 影响任务执行和客户端连接FE。 可能原因