华为云用户手册

  • 处理步骤 以root用户登录集群的任意节点。 在集群节点中执行cat /etc/hosts命令,查看各个节点的hostname值,根据此值来配置newhostname变量值 。 在hostname被修改的节点上执行sudo hostnamectl set-hostname ${newhostname}命令,恢复正确的hostname。 ${newhostname}:表示新的hostname取值。 修改完成后,重新登录修改的节点,查看修改后的hostname是否生效。
  • 解决办法 执行ulimit -a命令查看有问题节点文件句柄数最多设置是多少,如果很小,建议修改成640000。 图1 查看文件句柄数 执行vi /etc/security/limits.d/90-nofile.conf命令编辑文件,修改文件句柄数设置。如果没有这个文件,可以新建一个文件,并按照下图内容修改。 图2 修改文件句柄数 重新打开一个终端窗口,用ulimit -a命令查看是否修改成功,如果没有,请重新按照上述步骤重新修改。 从Manager页面重启DataNode实例。
  • 问题现象 安装Flume客户端失败,提示JAVA_HOME is null或flume has been installed。 CS T 2016-08-31 17:02:51 [flume-client install]: JAVA_HOME is null in current user,please install the JDK and set the JAVA_HOMECST 2016-08-31 17:02:51 [flume-client install]: check environment failed.CST 2016-08-31 17:02:51 [flume-client install]: check param failed.CST 2016-08-31 17:02:51 [flume-client install]: install flume client failed.
  • 原因分析 服务端配置错误,监测端口启动失败,例如服务端Avro Source配置了错误的IP,或者已经被占用了的端口。 查看Flume运行日志: 2016-08-31 17:28:42,092 | ERROR | [lifecycleSupervisor-1-9] | Unable to start EventDrivenSourceRunner: { source:Avro source avro_source: { bindAddress: 10.120.205.7, port: 21154 } } - Exception follows. | org.apache.flume.lifecycle.LifecycleSupervisor$MonitorRunnable.run(LifecycleSupervisor.java:253)java.lang.RuntimeException: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.205.7:21154 若采用了加密传输,证书或密码错误。 2016-08-31 17:15:59,593 | ERROR | [conf-file-poller-0] | Source avro_source has been removed due to an error during configuration | org.apache.flume.node.AbstractConfigurationProvider.loadSources(AbstractConfigurationProvider.java:388)org.apache.flume.FlumeException: Avro source configured with invalid keystore: /opt/Bigdata/ MRS _XXX/install/ FusionInsight -Flume-1.9.0/flume/conf/flume_sChat.jks 客户端与服务端通信异常。 PING 192.168.85.55 (10.120.85.55) 56(84) bytes of data.From 192.168.85.50 icmp_seq=1 Destination Host UnreachableFrom 192.168.85.50 icmp_seq=2 Destination Host UnreachableFrom 192.168.85.50 icmp_seq=3 Destination Host UnreachableFrom 192.168.85.50 icmp_seq=4 Destination Host Unreachable
  • 原因分析 DataNode日志“/var/log/Bigdata/hdfs/dn/hadoop-omm-datanode-XXX.log”,存在异常提示java.io.IOException: Too many open files。 2016-05-19 17:18:59,126 | WARN | org.apache.hadoop.hdfs.server.datanode.DataXceiverServer@142ff9fa | YSDN12:25009:DataXceiverServer: | org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverServer.java:160)java.io.IOException: Too many open filesat sun.nio.ch.ServerSocketChannelImpl.accept0(Native Method)at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:241)at sun.nio.ch.ServerSocketAdaptor.accept(ServerSocketAdaptor.java:100)at org.apache.hadoop.hdfs.net.TcpPeerServer.accept(TcpPeerServer.java:134)at org.apache.hadoop.hdfs.server.datanode.DataXceiverServer.run(DataXceiverServer.java:137)at java.lang.Thread.run(Thread.java:745) 如果某个DataNode日志中打印“Too many open files”,说明该节点文件句柄不足,导致打开文件句柄失败,然后就会重试往其他DataNode节点写数据,最终表现为写文件很慢或者写文件失败。
  • 处理步骤 检查备份目录是否软链接到系统盘。 以root用户登录集群主备Master节点。 执行df -h命令查看磁盘情况,检查系统盘的存储情况。 执行 ll /srv/BigData/LocalBackup命令, 查看备份目录是否软连接到/opt/Bigdata/LocalBackup。 检查备份文件是否软链接到系统盘且系统盘空间是否足够。如果软链接到系统盘且系统盘空间不足,请执行步骤2。如果否,说明不是由于系统盘空间不足导致,请联系技术服务。 将历史备份数据移到数据盘的新目录中。 以root用户登录Master节点。 执行su - omm命令,切换到omm用户。 执行rm -rf /srv/BigData/LocalBackup命令,删除备份目录软连接。 执行mkdir -p /srv/BigData/LocalBackup命令,创建备份目录。 执行mv /opt/Bigdata/LocalBackup/* /srv/BigData/LocalBackup/命令,将历史备份数据移到新目录。 重新执行备份任务。
  • 原因分析 HDFS开源3.0.0以下版本的默认端口为50070,3.0.0及以上的默认端口为9870。用户使用的端口和HDFS版本不匹配导致连接端口失败。 登录集群的主Master节点。 执行su - omm命令,切换到omm用户。 执行/opt/Bigdata/om-0.0.1/sbin/queryVersion.sh或者sh ${BIGDATA_HOME}/om-server/om/sbin/queryVersion.sh命令,查看集群中的HDFS版本号。 根据版本号确认开源组件的端口号,查询开源组件的端口号可参考开源组件端口列表,获取对应版本的HDFS端口号。 执行netstat -anp|grep ${port}命令,查看组件的默认端口号是否存在。 如果不存在,说明用户修改了默认的端口号。请修改为默认端口,再重新连接HDFS。 如果存在,请联系技术服务。 ${ port }:表示与组件版本相对应的组件默认端口号。 如果用户修改了默认端口号,请使用修改后的端口号连接HDFS。不建议修改默认端口号。
  • 处理步骤 连接外置的元数据数据库,查看元数据表的VIEW_EXPANDED_TEXT和VIEW_ORIGINAL_TEXT字段的编码是否为UTF 8。 show full columns from TBLS; 执行以下命令,修改字段编码信息。 ALTER TABLE TBLS modify COLUMN VIEW_EXPANDED_TEXT mediumtext CHARACTER SET utf8; ALTER TABLE TBLS modify COLUMN VIEW_ORIGINAL_TEXT mediumtext CHARACTER SET utf8; 重新创建视图后不存在中文乱码情况。
  • 原因分析 在JobHistory界面中跳转到某个应用的WebUI页面时,JobHistory需要回放该应用的Event log,若应用包含的事件日志较大,则回放时间较长,浏览器需要较长时间的等待。 当前浏览器访问JobHistory WebUI页面需经过httpd代理,代理的超时时间是10分钟,因此,如果JobHistory在10分钟内无法完成Event log的解析并返回,httpd会主动向浏览器返回Proxy Error信息。
  • 处理步骤 通过root用户登录Master1或Master2其中任意一节点,执行以下命令切换到omm用户。 su - omm 执行以下命令,修改“catalina.sh”脚本。 vim /opt/executor/bin/catalina.sh 搜索“JAVA_OPTS” ,找到类似JAVA_OPTS=“-Xms1024m -Xmx4096m”的配置,将其值根据需要进行修改,保存修改。 重启manager-executor进程,该进程在Master1和Master2节点上为主备部署,同一时刻只有一个节点上运行该进程,首先确认节点上是否有该进程,如果有该进程则进行重启操作。 分别登录Master1节点和Master2节点,执行以下命令确认当前节点是否存在该进程。当有输出时则进程存在。 ps -ef | grep "/opt/executor" | grep -v grep 重启命令如下。 sh /opt/executor/bin/shutdown.shsh /opt/executor/bin/startup.sh 重新访问Manager页面。
  • 处理步骤 清除浏览器缓存 切换至浏览器窗口(以Chrome为例),通过键盘按下“Ctrl+Shift+Delete”弹出“清除浏览数据”对话框。 勾选待清除的浏览记录,单击“清除数据”,完成浏览器缓存清理。 检查是否可以访问Manager。 是,操作结束。 否,执行4。 修改“/opt/Bigdata/tmp”目录权限 以root用户依次登录Master1、Master2节点。 查看Master1、Master2节点的“/opt/Bigdata/tmp”路径权限是否被修改。(权限默认为770) 如果被修改请执行以下命令恢复“/opt/Bigdata/tmp”路径权限。 chmod 1770 /opt/Bigdata/tmp 登录主 OMS 节点,执行以下命令重启OMS。 sh ${BIGDATA_HOME}/om-server/om/sbin/restart-oms.sh 提示以下信息表示命令执行成功: start HA successfully. 等待一段时间后重新登录Manager。
  • 用户问题 在History Server页面中访问某个Spark应用的页面时,发现访问时出错。 查看相应的HistoryServer日志后,发现有“FileNotFound”异常,相关日志如下所示: 2020-11-22 23:58:03,694 | WARN | [qtp55429210-232] | /history/application_1479662594976_0001/stages/stage/ | org.sparkproject.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:628)java.io.FileNotFoundException: ${BIGDATA_HOME}/tmp/spark/jobHistoryTemp/blockmgr-5f1f6aca-2303-4290-9845-88fa94d78480/09/temp_shuffle_11f82aaf-e226-46dc-b1f0-002751557694 (No such file or directory)
  • 原因分析 在History Server页面加载Task个数较多的Spark应用时,由于无法把全部的数据放入内存中,导致数据溢出到磁盘时,会产生前缀为“temp_shuffle”的文件。 HistoryServer默认会缓存50个Spark应用(由配置项“spark.history.retainedApplications”决定),当内存中的Spark应用个数超过这个数值时,HistoryServer会回收最先缓存的Spark应用,同时会清理掉相应的“temp_shuffle”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。
  • 问题分析 登录MRS Manager上查看Presto全部配置,Coordinator角色配置: PRESTO_COORDINATOR_FLOAT_IP = 内网IP地址 登录Coordinator角色所在主实例节点确认该地址为网卡:eth0:PRESTO。 Presto服务端口:非安全集群为7520;安全集群为7521; 因此公网访问需要给对应的浮动网卡绑定公网地址,然后填写正确的JDBC URL即可 URL格式: jdbc:presto://example_ip:7520/Catalog/schema jdbc:presto://example_ip:7521/Catalog/schema
  • 处理步骤 登录kadmin后台管理控制台。 以root用户登录安装了客户端的节点,执行以下命令,切换到客户端目录,例如“/opt/client”。 cd /opt/client 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,输入kadmin/admin用户密码后进入kadmin控制台。 kadmin -p kadmin/admin 3.x及之后版本默认密码:Admin@123。3.x之前版本默认密码:KAdmin@123。 首次登录后会提示该密码过期,请按照提示修改密码并妥善保存。 执行以下命令 ,查看被锁用户数据密码错误次数“Failed password attempts”参数值是否大于或等于5,如果是,则证明账户被锁。 getprinc 被锁用户名 如果账户被锁,执行以下命令解锁用户后,重新登录Manager。 modprinc -unlock 被锁用户名
  • 问题现象 MRS 3.x版本集群,ResourceManager日志显示TimelineServer数据目录数量到达上限打印大量错误日志。 异常日志内容如下: The directory item limit of /tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot is exceeded: limit=1048576 items=1048576
  • 原因分析 TimelineServer在MRS 3.x版本会使用一个HDFS的目录(例如以上报错中的“/tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot”路径)来存放历史任务信息,导致该目录下的文件不断累积,直到到达HDFS配置的目录数量上限(“dfs.namenode.fs-limits.max-directory-items”默认为“1048576”)。 此时请将“yarn.timeline-service.generic-application-history.enabled”(客户端查询app任务数据时是否从TimelineServer服务获取)参数设置为“false”,直接从ResourceManager上面获取app任务数据。
  • 处理步骤 以root用户登录安装了Spark2x/Spark客户端的节点。 执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor.properties 调小“log4j.appender.sparklog.MaxFileSize”参数值(表示生成一份日志文件的最大存储大小,默认为50MB),例如修改为“20MB”。 调小“log4j.appender.sparklog.MaxBackupIndex”参数值(表示滚动保存的文件数量,最大为10个文件,达到第11个覆盖第一个生成的文件),例如修改为“5”。 保存文件。 重新提交作业,作业运行正常。
  • 处理步骤 以root用户登录集群的Master节点。 执行chmod 755 /usr/bin/openssl命令,修改/usr/bin/openssl的文件目录权限为755。 执行su omm命令,切换到omm用户。 执行openssl命令,查看是否能够进入openssl模式。 如果能够成功进入,则表示权限修改成功,如果不能进入,则表示权限未修改成功。 如果权限未修改成功,请检查执行的命令是否正确,或者联系运维人员。 权限修改成功后会重启LdapServer服务,请等待LdapServer服务重启成功后,重新登录MRS Manager。
  • 用户问题 更换HA证书时,执行sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=state --city=city --company=company --organize=organize --common-name=commonname --email=集群用户邮箱命令在主管理节点“${OMS_RUN_PATH}/workspace0/ha/local/cert”目录生成“root-ca.crt”和“root-ca.pem”时,发生以下报错: openssl: relocation error: openssl: symbol BIO_new_dgram_sctp version OPENSSL_1_1_0 not defined in file libcrypto.so.1.1 with link time referencecreate server private key failed.
  • 处理步骤 登录FusionInsight Manager检查是否存在网络故障、时钟跳变或Hue服务相关的告警,若存在问题则联系管理员进行处理,重试打开Hue页面确认是否正常。 是,处理结束。 否,执行2。 获取当前工作的Httpd服务器地址,为打开Hue页面URL中主机地址,即如果打开Hue的Url为“https://192.168.0.1:21201”,Httpd服务地址则为“192.168.0.1”。 登录Httpd服务器,排查“/var/log/Bigdata/httpd/error_log”中的日志。 确认“error_log”中是否存在“AH01102: error reading status line from remote server”和“AH00898: Error reading from remote server”字样的报错(可以多试几次打开Hue页面以确认情况)。 是,通过FusionInsight Manager重启Hue服务,执行5。 否,执行6。 重启Hue服务后,再次打开Hue页面。 是,处理结束。 否,执行6。 联系运维。
  • 排查思路 检查集群状态:Manager页面无法正常访问,请首先确认MRS集群状态是否正常,如果集群已关闭或者正在创建中,或集群正在发生主备倒换,将无法访问Manager。 检查用户权限:当前用户是否有访问Manager的权限,“ReadOnlyAccess”表示MRS的只读权限,拥有该权限的用户仅能查看MRS的资源,无法访问Manager页面。 检查是否绑定弹性IP:如果需要从本地访问Manager,需要对集群绑定弹性IP且弹性IP可用才可访问。 检查安全组:MRS集群对应的安全组规则中,需要对当前用户开放9022端口。安全组规则中添加的用户本地IP是否发生变化。 检查浏览器:检查本地浏览器是否正常,例如是否配置了内部网络代理、是否添加了会拦截用户Token的安全设置。 检查Manager:EIP、安全组等相关网络配置正常的情况下,检查Manager是否运行正常。 检查用户密码:登录Manager使用的用户密码错误或失效。
  • 解决办法 以root用户登录主OMS节点执行ifconfig命令,查找当前节点的浮动IP。 例如执行后结果如下,则当前节点的浮动IP为192.168.0.3。 登录NTP时间异常的Master节点,执行以下命令关闭NTP服务。 service ntpd stop 执行以下命令手动同步主、备Master节点的时间。 /usr/sbin/ntpdate 1查询到的浮动IP 执行以下命令启动NTP服务。 service ntpd start 执行ntpstat命令查看时间同步结果。
  • 解决办法 在集群所在VPC对应重点节点策略中,将当前Region的补丁桶放通,以保证MRS集群节点可以正常获取补丁文件。 使用具有管理权限的用户登录终端节点控制台。 单击管理控制台左上角的Region信息,选择区域和项目。 在终端节点列表中,单击终端节点ID。 选择进入“策略”页面,单击“编辑”,修改策略信息。 例如只允许VPC1内的服务器下载账号A的桶mybucket中的对象。 其中VPC1的ID为:4dad1f75-0361-4aa4-ac75-1ffdda3a0fec,账号A的账号ID为:783fc6652cf246c096ea836694f71855。 [ { "Action": [ "obs:object:GetObject" ], "Resource": [ "obs:*:783fc6652cf246c096ea836694f71855:object:mybucket/*" ], "Effect": "Allow" }] 更多VPCEP策略配置说明可参考https://support.huaweicloud.com/usermanual-vpcep/vpcep_03_3002.html。 MRS集群各Region中补丁对应OBS文件桶信息如下: 华东-上海一:mrs-container1-patch-cn-east-3 西南-贵阳一:mrs-container1-patch-cn-southwest-2 华北-北京四:mrs-container1-patch-cn-north-4 华北-北京一:mrs-container1-patch-cn-north-1 华北-北京二:mrs-container1-patch-cn-north-2 华东-上海二:mrs-container1-patch-cn-east-2 华南-广州:mrs-container1-patch-cn-south-1 单击“完成”。
  • 答: 访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI的用户不具备对应组件的管理权限,导致界面报错或部分功能不可用。 例如: 使用当前用户登录Flink WebUI后,部分内容不能正常显示,且没有权限创建应用、创建集群连接、创建数据连接等: 使用当前用户访问HDFS WebUI报错:Failed to retrieve data from /jmx?qry=java.lang:type=Memory, cause: Forbidden 使用当前用户访问Yarn WebUI界面,无法查看作业信息: 使用当前用户登录Hue WebUI后,在界面左侧导航栏单击 ,选择“Workflow”后报错: 建议使用新建的具有对于组件管理权限的用户访问,此时可以参考创建用户章节,创建一个业务用户,例如创建一个具有HDFS管理权限的用户登录并访问HDFS WebUI界面。
  • 处理步骤 以omm用户登录主管理节点。 执行以下命令打开application.properties文件。 vi ${BIGDATA_HOME}/om-server_*/OMS/workspace0/conf/pms/application.properties 将PMS进程的内存配置参数“pms.mem”根据实际情况调大,保存并退出。 ...pms.mem=800m 修改的新值的增长量不能大于操作系统可用剩余内存。 执行以下命令查找PMS进程的PID,并终止PMS进程,等待进程重新启动。 ps -ef | grep pms kill -9 PID 登录Manager页面,查看卡顿情况消失。
  • 操作步骤 以root用户登录主OMS所在节点,执行以下命令获取RegionServer对应的URL。 cat /opt/Bigdata/Apache-httpd*/conf/whitelist.txt |grep RegionServer 修改HBase WebUI的HMaser的访问地址,将“/HMaster/ID/master-status”修改为“/RegionServer/ID/rs-status”,即可直接访问RegionServer信息页。其中,“/RegionServer/ID/rs-status”中的“ID”为1查看到的RegionServer主机名称对应的ID。 例如,若查看到的RegionServer的URL为“/HBase/RegionServer/44”,则访问地址为“https://100.94.xxx.xxx:9022/component/HBase/RegionServer/44/rs-status”。
  • 处理步骤 复制MRS Manager的登录链接,使用Chrome浏览器访问。 显示MRS Manager登录页面,此时Chrome浏览器暂时还不能登录MRS Manager页面,请继续操作后续步骤。 查找证书。 单击浏览器左上角,单击“证书无效”所在行的。 获取证书。 选中该证书拖动到电脑桌面,即可获得证书。 在Mac应用中选择钥匙串访问。 “钥匙串”选择“登录”,“种类”选择“证书”。 将步骤3获得的证书拖动到钥匙串列表中。 双击证书将该证书设置为“始终信任”并关闭弹窗。 在出现的确认框中输入登录密码,此时在Chrome中即可访问MRS Manager。
  • 处理步骤 在HDFS客户端执行以下命令删除2查看到的残留文件: hdfs dfs -rmr 残留文件所在的HDFS路径 例如: hdfs dfs -rmr /hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc
  • 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2acfebaa7a56de’”打开失败,Region状态被设置为FAILED_OPEN。 “Region‘b7b3faab86527b88a92f2a248a54d3dc’”下的一个文件找不到报错FileNotFoundException。 在HBase客户端中执行hbase hbck命令检查Region,报错: ERROR: Found lingering reference file hdfs://hacluster/hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc 从引用文件可以看出,‘3b3ae24c65fc5094bc2acfebaa7a56de’Region是‘ b7b3faab86527b88a92f2a248a54d3dc’的子Region,子Region引用了父Region的文件,父Region的文件在迁移过程中因为未知原因丢失了,导致子Region找不到引用文件。 这种异常并不能通过简单的重试可解决,所以Region会长时间处于RIT状态。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全