检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理集群内部OBS证书过期 用户问题 用户在MRS集群中访问OBS服务过程中出现证书过期问题。 问题现象 MRS集群产生“ALM-12054 证书文件失效”或“ALM-12055 证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2
更新MRS集群加密密钥 在安装集群时,系统将自动生成加密密钥key值以对集群的部分安全信息(例如所有数据库用户密码、密钥文件访问密码等)进行加密存储。在集群安装成功后,如果原始密钥不慎意外泄露或者需要使用新的密钥,系统管理员可以通过以下操作手动更改密钥值。 对系统的影响 更新集群
//失效时间 导入证书文件。 导入新的CA证书文件。 请联系运维人员申请或生成新的CA证书文件并导入。手动清除该告警信息,查看系统在定时检查时是否会再次产生此告警。 如果当前为Ranger证书过期,则请参考Ranger证书如何更新?章节进行处理。 是,执行8。 否,处理完毕。 导入新的HA证书文件。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 证书文件已经失效,对应模块功能受限,无法正常使用。 可能原因 系统未导入证书(CA证书、HA根证书、HA用户证书、Gaussdb根证书或者Gaussdb用户证书等)、导入证书失败、证书文件失效。 处理步骤 查看告警原因。 打开FusionInsight
HetuEngine计算实例Worker个数小于阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每60秒周期性检测HetuEngine计算实例的Worker个数,当检测到HetuEngine计算实例的Worker个数小于初始设置值的80%时产生该告警。 HetuE
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 证书文件即将过期,如果证书文件过期失效,对应模块功能受限,无法正常使用。 可能原因 系统证书文件(CA证书、HA根证书、HA用户证书、Gaussdb根证书或者Gaussdb用户证书等)剩余有效期小于30天。 处理步骤 查看告警原因。 打开FusionInsight
ALM-50219 当前查询执行线程池等待队列的长度超过阈值 告警解释 系统每30秒周期性检查当前查询执行线程池等待队列的长度超过阈值,当检查到该值超出阈值(默认值为20)时产生该告警。 当前查询执行线程池等待队列的长度低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除
更新MRS集群节点omm用户ssh密钥 操作场景 在安装集群时,系统将自动为omm用户生成ssh认证私钥和公钥,用来建立节点间的互信。在集群安装成功后,如果原始私钥不慎意外泄露或者需要使用新的密钥时,系统管理员可以通过以下操作手动更改密钥值。 该章节仅适用于MRS 3.x及之后版本。
BE的各种定期汇报任务在FE端的队列长度超过阈值 告警解释 系统每30秒周期性检查BE的各种定期汇报任务在FE端的队列长度,当检查到该值超出阈值(默认值为10)时产生该告警。该值反映了汇报任务在Master FE节点上的阻塞程度,数值越大,表示FE处理能力不足。 当系统检查到BE的各
ALM-26052 Storm服务可用Supervisor数量小于阈值 告警解释 系统每60秒周期性检测Supervisor数量,并把实际Supervisor数量和阈值相比较。当检测到Supervisor数量低于阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称”修改阈值。
否,执行2。 等待30秒,检查该告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
ALM-24011 Flume证书文件即将过期 本章节适用于MRS 3.2.0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否即将过期,如果剩余有效期小于或等于30天,产生该告警。证书文件剩余有效期大于30天,告警恢复。 告警属性 告警ID 告警级别
Manager首页,选择“运维 > 告警 > 告警 > ALM-45654 Flink HA证书文件即将过期 > 定位信息”,查看告警上报的主机名,单击“主机”,查看主机名对应的IP地址。 检查系统中合法HA证书文件的有效期,重新生成HA证书文件。 以omm用户登录告警所在节点主机。 执行命令cd ${BIG
告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
MonitorServer证书文件即将失效,对系统目前运行无影响。 可能原因 MonitorServer证书文件即将到期。 处理步骤 查看告警信息。 登录FusionInsight Manager首页,选择“运维 > 告警 > 告警 > ALM-24014 MonitorServer证书文件即将过期
告警解释 系统每30秒周期性检测HBase服务的compaction队列长度,默认当连续3次检测到HBase服务的compaction队列长度超过告警的阈值(默认100)时产生该告警。当compaction队列长度小于告警的阈值时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除
[10000 milliseconds] 可能原因 Flink开启了SSL通信加密,却没有正确的配置SSL证书。 解决办法 针对MRS 2.x及之前版本,操作如下: 方法1: 关闭Flink SSL通信加密,修改客户端配置文件“conf/flink-conf.yaml”。 security.ssl
tdb-session-example样例代码,需进行以下操作: 需放置准备集群认证用户信息获取到的认证文件“user.keytab”和“krb5.conf”及SSL证书文件“truststore.jks”到各样例工程的“..\src\main\resources”目录下。 配置各样例工程的“
exceeds its limit [2048] 原因分析 由于HiveSQL脚本中一次提交的作业量太大,其中包含的信息超过Oozie Launcher一次容许的最大值2KB(2048 Bytes),需要调大默认的输出参数值,调整该参数不会对集群性能造成影响。 处理步骤 登录Manager页面,选择“集群
是否成功来判断。 如果集群为安全集群,可能是Flink的SSL证书配置错误,或者证书过期。 解决方法 增加队列的资源。 排除用户jar包中的Flink和Hadoop依赖,依赖环境中的jar包。 重新配置Flink的SSL证书,可参考从零开始使用Flink。 父主题: 作业管理类