检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何处理集群内部OBS证书过期 用户问题 用户在MRS集群中访问OBS服务过程中出现证书过期问题。 问题现象 MRS集群产生“ALM-12054 证书文件失效”或“ALM-12055 证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2 OBS证书失效告警
ALM-12055 证书文件即将过期(2.x及以前版本) 告警解释 系统每天二十三点检查一次当前系统中的证书文件,如果当前时间距离过期时间不足告警阈值天数,则证书文件即将过期,产生该告警。 当重新导入一个正常证书,并且状态不为即将过期,该告警恢复。 告警属性 告警ID 告警级别 可自动清除
ALM-12055 证书文件即将过期 告警解释 系统每天二十三点检查一次当前系统中的证书文件,如果当前时间距离证书过期时间小于30天,则证书文件即将过期,产生该告警。 当重新导入一个正常证书,并且状态不为即将过期,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2.0及之后版本告警检测周期为:每小时整点。
集群内用户密码的过期时间如何查询和修改? 查询密码有效期 查询组件运行用户(人机用户、机机用户)密码有效期: 以客户端安装用户,登录安装了客户端的节点。 执行以下命令,切换到客户端目录,例如“/opt/Bigdata/client”。 cd /opt/Bigdata/client
检查系统中合法证书文件的有效期。 查看当前系统时间是否在CA证书的有效期内。 执行命令openssl x509 -noout -text -in ${CONTROLLER_HOME}/security/cert/root/ca.crt可以查看CA根证书的生效时间与失效时间。 是,执行8。 否,执行6。
ALM-45655 Flink HA证书文件已过期 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否已过期。如果HA证书已过期,产生该告警。证书恢复到有效期内,告警恢复。 告警属性 告警ID
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的Flume。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的MonitorServer。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的MonitorServer。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的Flume。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
ght Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。 更换CA证书以后,MRS中HDFS、Yarn、MapReduce、HBase、Loader、Hue、Flink(MRS
当配置channel过期时间(spark.rpc.io.connectionTimeout) < RPC响应超时时间(spark.rpc.askTimeout),在特殊条件下(Full GC,网络延时等)消息响应时间较长,消息还没有反馈,channel又达到了过期时间,该channe
ALM-12078 omm密码过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否过期,如果密码过期,则发送告警。 当系统中omm密码过期的期限修改,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12078 重要 是 告警参数 参数名称
to the leading JobManager” 问题背景与现象 创建Fllink集群,执行yarn-session.sh命令卡住一段时间后报错: 2018-09-20 22:51:16,842 | WARN | [main] | Unable to get ClusterClient
s开发环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/
s开发环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/
是否成功来判断。 如果集群为安全集群,可能是Flink的SSL证书配置错误,或者证书过期。 解决方法 增加队列的资源。 排除用户jar包中的Flink和Hadoop依赖,依赖环境中的jar包。 重新配置Flink的SSL证书,可参考从零开始使用Flink。 父主题: 作业管理类
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置HTTPS SSL证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
xample样例代码,需进行以下操作: 需放置准备集群认证用户信息获取到的认证文件“user.keytab”和“krb5.conf”及SSL证书文件“truststore.jks”到各样例工程的“..\src\main\resources”目录下。 配置各样例工程的“..\src