检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Futures timed out after [10000 milliseconds] 可能原因 Flink开启了SSL通信加密,却没有正确的配置SSL证书。 解决办法 针对MRS 2.x及之前版本,操作如下: 方法1: 关闭Flink SSL通信加密,修改客户端配置文件“conf/flink-conf
可能原因 Yarn队列中资源不足,导致创建taskmanager启动不成功。 用户的jar包与环境中的jar包冲突导致,可以通过执行wordcount程序是否成功来判断。 如果集群为安全集群,可能是Flink的SSL证书配置错误,或者证书过期。 解决方法 增加队列的资源。 排除用户j
xample样例代码,需进行以下操作: 需放置准备集群认证用户信息获取到的认证文件“user.keytab”和“krb5.conf”及SSL证书文件“truststore.jks”到各样例工程的“..\src\main\resources”目录下。 配置各样例工程的“..\src
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/nod
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/nod
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置https ssl证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。 操作步骤 在Windows本地运行程序,需要配置HTTPS SSL证书。 登录集群任意节点,进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.0.1/nod
Spark任务提交失败 问题现象 Spark提交任务直接提示无法提交任务。 Spark提示无法获取到yarn的相关jar包。 提示多次提交一个文件。 原因分析 问题1: 最常见的无法提交任务原因是认证失败, 还有可能是参数设置不正确。 问题2: 集群默认会把分析节点的hadoop
查看Spark任务日志失败 问题现象 任务运行中查看日志失败。 任务运行完成,但是查看不到日志。 原因分析 问题1:可能原因是MapReduce服务异常。 问题2:可能原因如下: Spark的JobHistory服务异常。 日志太大,NodeManager在做日志汇聚的时候出现超时。
产生告警的角色名称。 HostName 产生告警的主机名。 对系统的影响 提示用户证书文件已经失效,部分功能受限,无法正常使用。 可能原因 系统未导入证书(HA根证书或者HA用户证书)、导入证书失败、证书文件失效。 处理步骤 查看告警原因 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。
c40a9 说明: 用户需要获取SSL证书,放置到Flink客户端中。具体操作可参考签发Flink证书样例。 使用MRS客户端预制“generate_keystore.sh”脚本获取SSL证书有效期为5年。参考签发Flink证书样例获取的SSL证书有效期为10年。 若要关闭默认的
由于HDFS块丢失导致DataNode退服失败 问题背景与现象 在退服DataNode过程中,一直提示退服失败。 原因分析 查看退服失败报错日志,日志中显示总计1564个块,有一个块一直没法被备份。 登录集群Master节点,进入HDFS客户端,执行hdfs fsck /命令查看损坏的块,并记录文件路径。
缩容Task节点失败 问题现象 在MRS 2.x集群详情页面调整集群Task节点,将Task节点调整成0个,最终缩容失败,提示如下: This operation is not allowed because the number of instances of NodeManager
配置Flink对接Kafka安全认证 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据(需要有Kafka权限用户),并从Kafka组件接收数据。 确保集群安装完成,包括HDFS、Yarn、Flink和Kafka。 创建Topic。 用户使用Linux命令行
证隔离节点和集群使用相同的CA证书。 该章节仅适用于MRS 3.x及之后版本。 对系统的影响 更换过程中MRS系统需要重启,此时系统无法访问且无法提供服务。 更换证书以后,所有组件和Manager的模块使用的证书将自动更新。 更换证书以后,还未信任该证书的本地环境,需要重新安装证书。
Manager页面新建的租户删除失败 问题现象 在FusionInsight Manager的“租户资源”页面添加租户后,删除租户时,报“删除租户角色失败”。 原因分析 在创建租户时会生成对应的角色,执行删除租户操作时会首先删除对应的角色。此时如果支持权限配置的组件状态异常,则会导致删除这个角色对应的资源权限失败。
主机名 产生告警的主机名。 任务名 任务名称。 对系统的影响 周期备份任务失败,会导致在备份失败的时间段内没有可用的备份包。在系统出现异常需要使用备份包恢复数据时,没有失败时间段的备份包,导致失败时间段数据无法恢复。 可能原因 该告警产生原因依赖于该任务的详细情况,直接获取日志和任务详情来处理该告警。
如何处理集群内部OBS证书过期 用户问题 用户在MRS集群中访问OBS服务过程中出现证书过期问题。 问题现象 MRS集群产生“ALM-12054 证书文件失效”或“ALM-12055 证书文件即将过期”告警,且告警详情中触发告警的证书为OBS证书。 图1 OBS证书即将过期告警 图2
一对多的消息订阅以及通知功能,能够实现一站式集成多种推送通知方式(短信和邮件通知)。通过配置作业消息通知可以实现您在作业执行成功或作业执行失败时能立即接收到通知。 登录管理控制台。 单击“服务列表”选择“管理与监管 > 消息通知服务”,进入消息通知服务页面。 创建主题并向主题中添
当用户发现部分组件或实例的状态超期或失败时,您可以尝试使用同步配置功能,以恢复配置状态。或者集群中所有服务的配置状态为失败时,同步指定服务的配置数据与后台配置数据。 若集群中所有服务的配置状态为“失败”时,同步集群的配置数据与后台配置数据。 若集群中某些服务的配置状态为“失败”时,同步指定服务的配置数据与后台配置数据。