故障排除-华为云

消息&短信 MSGSMS-开通短信服务异常，如何处理？

开通短信服务异常，如何处理？异常现象处理建议提示“您尚未绑定邮箱，去绑定”。请进入账号中心，查看是否已绑定注册邮箱。如果未绑定，请绑定后重试；如果已绑定，请修改绑定后重试。提示“检测到华为云账号变更，请联系客服进行资源的关联”。请确认是否修改过华为云账号的账号名，修改回原账号名后重试，或提供修改前后的账号名，联系华为云客服处理。提示“没有余额无法正常开通”。请参考如何给账户充值，充值后再开通短信服务。提示“暂不支持 IAM 用户开通服务，请使用主账号登录后开通服务”。消息&短信暂只支持主账号开通服务，请使用主账号登录开通，授予子账号对应区域的消息&短信服务权限。查询服务是否开通报错。请检查账号实名认证信息，确认已通过华为云企业实名认证。请确认用户基本信息已完善，手机号已绑定。国内短信请单击页面左上角“控制台”，切换区域至华北-北京四。请确认已勾选“我已阅读并同意《消息&短信服务使用声明》”。请清理浏览器缓存后重试。单击“立即开通”无反应或页面未跳转。无法单击“立即开通”（按钮呈灰色，不可点击）。父主题：故障排除

消息&短信 MSGSMS 故障排除

MAPREDUCE服务 MRS-安装使用集群外客户端时，连接集群端口失败:解决方法

解决方法应用无法访问到SparkUI的IP:PORT。可能有以下原因：可能原因一：集群节点与客户端节点网络不通。解决方法：查看客户端节点“/etc/hosts”文件中是否配置集群节点映射，在客户端节点执行命令： ping sparkui的IP 如果ping不通，检查映射配置与网络设置。可能原因二：客户端节点防火墙未关闭。解决方法：执行如下命令可查看是否关闭： systemctl status firewalld（不同的操作系统查询命令不一致，此命令以CentOS为例）如下图所示：dead表示关闭。防火墙开则影响通信，执行如下命令关闭防火墙： service firewalld stop（不同的操作系统查询命令不一致，此命令以CentOS为例）可能原因三：端口被占用，每一个Spark任务都会占用一个SparkUI端口，默认为22600，如果被占用则依次递增端口重试。但是有个默认重试次数，为16次。16次重试都失败后，会放弃该任务的运行。查看端口是否被占用： ssh -v -p port username@ip 如果输出“Connection established”，则表示连接成功，端口已被占用。 Spark UI端口范围由配置文件spark-defaults.conf中的参数“spark.random.port.min”和“spark.random.port.max”决定，如果该范围端口都已被占用，则导致无端口可用从而连接失败。解决方法：调节重连次数spark.port.maxRetries=50，并且调节executor随机端口范围spark.random.port.max+100 可能原因四：客户端Spark配置参数错误。解决方法：在客户端节点执行命令cat spark-env.sh，查看SPARK_LOCAL_HOSTNAME，是否为本机IP。该问题容易出现在从其他节点直接复制客户端时，配置参数未修改。需修改SPARK_LOCAL_HOSTNAME为本机IP。注：如果集群使用EIP通信，则需要设置以下参数。 spark-default.conf中添加spark.driver.host = EIP（客户端节点弹性公网IP） spark-default.conf中添加spark.driver.bindAddress=本地IP spark-env.sh中修改SPARK_LOCAL_HOSTNAME=EIP（客户端节点弹性公网IP）可能原因五：代码问题。解决方法： Spark在启动任务时会在客户端创建sparkDriverEnv并绑定DRIVER_BIND_ADDRESS，该逻辑并没有走到服务端，所以该问题产生的原因也是客户端节点操作系统环境问题导致sparkDriver获取不到对应的主机IP。可以尝试执行export SPARK_LOCAL_HOSTNAME=172.0.0.1或者设置spark.driver.bindAddress=127.0.0.1，使提交任务driver端可以加载到loopbackAddress，从而规避问题。

MAPREDUCE服务 MRS Spark故障排除

MAPREDUCE服务 MRS-安装使用集群外客户端时，连接集群端口失败:问题

问题安装集群外客户端或使用集群外客户端时，有时会出现连接Spark任务端口失败的问题。异常信息：Failed to bind SparkUi Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (on a random free port)! Consider explicitly setting the appropriate binding address for the service ‘sparkDriver’ (for example spark.driver.bindAddress for SparkDriver) to the correct binding address.

MAPREDUCE服务 MRS Spark故障排除

MAPREDUCE服务 MRS-EditLog不连续导致NameNode启动失败:解决方法

解决方法找到重启前的主NameNode，进入其数据目录（查看配置项“dfs.namenode.name.dir”可获取，例如/srv/BigData/namenode/current），得到最新的FSImage文件的序号。一般如下：查看各JournalNode的数据目录（查看配置项“dfs.journalnode.edits.dir”可获取，例如/srv/BigData/journalnode/hacluster/current），查看序号从第一部获取到的序号开始的edits文件，看是否有不连续的情况（即前一个edits文件的最后一个序号和后一个edits文件的第一个序号不是连续的，如下图中的edits_0000000000013259231-0000000000013259237就和后一个edits_0000000000013259239-0000000000013259246就是不连续的）。如果有这种不连续的edits文件，则需要查看其它的JournalNode的数据目录或NameNode数据目录中，有没有连续的该序号相关的连续的edits文件。如果可以找到，复制一个连续的片段到该JournalNode。如此把所有的不连续的edits文件全部都修复。重启NameNode，观察是否成功。如还是失败，请联系技术支持。

MAPREDUCE服务 MRS HDFS故障排除

ICP备案-为什么网站无法访问？

为什么网站无法访问？网站暂时无法访问，可能由以下原因导致：原因一：未备案或未接入华为云备案。根据《非经营性互联网信息服务备案管理办法》，网站需要完成备案。如果您的域名已在其他接入商办理过备案并取得备案号，现在更换到华为云服务器进行域名解析（或者二级域名指向华为云），因接入商有变更，需要您在华为云做接入备案。原因二：网站内容与备案信息不符或备案信息不准确。根据《非经营性互联网信息服务备案管理办法》，网站内容需要与备案信息一致，且备案信息真实有效。建议网站管理员尽快修改网站信息。原因三：备案信息同步延迟。如果您的网站已备案成功仍无法访问，请等待一个工作日。由于信息同步延迟，备案通过一个工作日后网页会自动开放。原因四：没有配置网站解析。备案成功后，需要将域名解析至备案接入商的服务器，配置网站解析。如果您的网站备案接入商是华为云，则网站解析操作如下：在华为云注册域名的用户，单击这里配置网站解析。在第三方注册域名的用户，单击这里配置网站解析。其他异常情况：请提交工单进行咨询。父主题：故障排除

ICP备案故障排除

MAPREDUCE服务 MRS-EditLog不连续导致NameNode启动失败:解决方法

解决方法找到重启前的主NameNode，进入其数据目录（查看配置项“dfs.namenode.name.dir”可获取，例如/srv/BigData/namenode/current），得到最新的FSImage文件的序号。一般如下：查看各JournalNode的数据目录（查看配置项“dfs.journalnode.edits.dir”可获取，例如/srv/BigData/journalnode/hacluster/current），查看序号从第一部获取到的序号开始的edits文件，看是否有不连续的情况（即前一个edits文件的最后一个序号和后一个edits文件的第一个序号不是连续的，如下图中的edits_0000000000013259231-0000000000013259237就和后一个edits_0000000000013259239-0000000000013259246就是不连续的）。如果有这种不连续的edits文件，则需要查看其它的JournalNode的数据目录或NameNode数据目录中，有没有连续的该序号相关的连续的edits文件。如果可以找到，复制一个连续的片段到该JournalNode。如此把所有的不连续的edits文件全部都修复。重启NameNode，观察是否成功。如还是失败，请联系技术支持。

MAPREDUCE服务 MRS HDFS故障排除

MAPREDUCE服务 MRS-HDFS进入安全模式导致HBase服务异常，退出安全模式后HBase如何快速恢复:原因分析

原因分析 HDFS进入安全模式后HBase服务异常，导致meta表下线；HDFS退出安全模式后，下线的meta表未上线，查看RegionServer日志存在“No namenode available to invoke create /hbase/WALs/xxxx.meta”报错。由于meta表在HDFS故障恢复后的上线过程中无法记录上线状态，导致meta表无法正常上线，且Manager实例健康检查自动恢复重试存在重试次数限制，最终导致meta表上线失败。因此，HDFS退出安全模式后，需要手动介入进行恢复。

MAPREDUCE服务 MRS HBase故障排除

MAPREDUCE服务 MRS-Spark导出带有相同字段名的表，结果导出失败:问题

问题在Spark的spark-shell上执行如下代码失败： val acctId = List(("49562", "Amal", "Derry"), ("00000", "Fred", "Xanadu")) val rddLeft = sc.makeRDD(acctId) val dfLeft = rddLeft.toDF("Id", "Name", "City") //dfLeft.show val acctCustId = List(("Amal", "49562", "CO"), ("Dave", "99999", "ZZ")) val rddRight = sc.makeRDD(acctCustId) val dfRight = rddRight.toDF("Name", "CustId", "State") //dfRight.show val dfJoin = dfLeft.join(dfRight, dfLeft("Id") === dfRight("CustId"), "outer") dfJoin.show dfJoin.repartition(1).write.format("com.databricks.spark.csv").option("delimiter", "\t").option("header", "true").option("treatEmptyValuesAsNulls", "true").option("nullValue", "").save("/tmp/outputDir")

MAPREDUCE服务 MRS Spark故障排除

MAPREDUCE服务 MRS-如何对insert overwrite自读自写场景进行优化:操作步骤

操作步骤假设存在如下一张表： user_data(user_group int, user_name string, update_time timestamp); 其中user_group是分区列，需要根据已有数据，按更新时间进行排序，刷新用户组信息。操作步骤如下：在Hive Beeline命令行执行以下命令开启Hive动态分区： set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; 执行以下命令创建一个临时表，用于存储去重后的数据： CREATE TABLE temp_user_data AS SELECT * FROM ( SELECT *, ROW_NUMBER() OVER(PARTITION BY user_group ORDER BY update_time DESC) as rank FROM user_data ) tmp WHERE rank = 1; 执行以下命令使用临时数据作为数据源，并插入到目的表中： INSERT OVERWRITE TABLE user_data SELECT user_group, user_name, update_time FROM temp_user_data; 执行以下命令清理临时表： DROP TABLE IF EXISTS temp_user_data;

MAPREDUCE服务 MRS Hive故障排除

MAPREDUCE服务 MRS-多副本场景下，运行在副本丢失损坏的BE节点的查询任务报错:处理步骤

处理步骤登录安装了MySQL的节点，连接Doris数据库。调用BE的check_tablet_segment_lost请求自动修复丢失的副本。 curl -X POST http://192.168.67.78:29986/api/check_tablet_segment_lost?repair=true （ 192.168.67.78为异常的BE节点IP地址，29986为BE的HTTP Server的服务端口，可在Manager的Doris配置界面搜索“webserver_port”查看。执行以下命令，获取DetailCmd。 show tablet tabletId 执行DetailCmd，当异常节点的副本已经被移除时，再次进行业务查询正常即可。

MAPREDUCE服务 MRS Doirs故障排除

MAPREDUCE服务 MRS-HetuEngine计算实例启动失败报错Python不存在:回答

回答 HetuEngine计算实例的启动依赖Python文件，需确保各节点“/usr/bin/”路径下面存在Python文件。登录 FusionInsight Manager，单击“主机”，查看并记录所有主机的业务IP。以root用户登录1记录的节点，在所有节点都执行以下命令，在“/usr/bin/”目录下添加“python3”的软连接。 cd /usr/bin ln -s python3 python 重新启动HetuEngine计算实例。

MAPREDUCE服务 MRS HetuEngine故障排除

MAPREDUCE服务 MRS-配置HBase权限策略时无法使用通配符搜索已存在的HBase表:问题

问题添加HBase的Ranger访问权限策略时，在策略中使用通配符搜索已存在的HBase表时，搜索不到已存在的表，并且在/var/log/Bigdata/ranger/rangeradmin/ranger-admin-*log中报以下错误 Caused by: javax.security.sasl.SaslException: No common protection layer between client and server at com.sun.security.sasl.gsskerb.GssKrb5Client.doFinalHandshake(GssKrb5Client.java:253) at com.sun.security.sasl.gsskerb.GssKrb5Client.evaluateChallenge(GssKrb5Client.java:186) at org.apache.hadoop.hbase.security.AbstractHBaseSaslRpcClient.evaluateChallenge(AbstractHBaseSaslRpcClient.java:142) at org.apache.hadoop.hbase.security.NettyHBaseSaslRpcClientHandler$2.run(NettyHBaseSaslRpcClientHandler.java:142) at org.apache.hadoop.hbase.security.NettyHBaseSaslRpcClientHandler$2.run(NettyHBaseSaslRpcClientHandler.java:138) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1761) at org.apache.hadoop.hbase.security.NettyHBaseSaslRpcClientHandler.channelRead0(NettyHBaseSaslRpcClientHandler.java:138) at org.apache.hadoop.hbase.security.NettyHBaseSaslRpcClientHandler.channelRead0(NettyHBaseSaslRpcClientHandler.java:42) at org.apache.hbase.thirdparty.io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) at org.apache.hbase.thirdparty.io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:362)

MAPREDUCE服务 MRS Ranger故障排除

MAPREDUCE服务 MRS-配置HBase权限策略时无法使用通配符搜索已存在的HBase表:回答

回答 Ranger界面上HBase服务插件的“hbase.rpc.protection”参数值和HBase服务端的“hbase.rpc.protection”参数值必须保持一致。参考登录Ranger WebUI界面章节，登录Ranger管理界面。在首页中“HBASE”区域，单击组件插件名称，如HBase的按钮搜索配置项“hbase.rpc.protection”，修改配置项的value值，与HBase服务端的“hbase.rpc.protection”的值保持一致。单击“保存”。

MAPREDUCE服务 MRS Ranger故障排除

MAPREDUCE服务 MRS-为什么从Yarn Web UI页面无法跳转到Spark Web UI界面:回答

回答打开FusionInsight Manager页面，看到Yarn服务的业务IP地址为192网段。从Yarn的日志看到，Yarn读取的Spark Web UI地址为http://10.120.169.53:23011，是10网段的IP地址。由于192网段的IP和10网段的IP不能互通，所以导致访问Spark Web UI界面失败。修改方案：登录10.120.169.53客户端机器，修改/etc/hosts文件，将10.120.169.53更改为相对应的192网段的IP地址。再重新运行Spark应用，这时就可以打开Spark Web UI界面。

MAPREDUCE服务 MRS Spark故障排除

MAPREDUCE服务 MRS-删除大量文件后重启NameNode耗时长:回答

回答由于在删除了大量文件之后，DataNode需要时间去删除对应的Block。当立刻重启NameNode时，NameNode会去检查所有DataNode上报的Block信息，发现已删除的Block时，会输出对应的INFO日志信息，如下所示： 2015-06-10 19:25:50,215 | INFO | IPC Server handler 36 on 25000 | BLOCK* processReport: blk_1075861877_2121067 on node 10.91.8.218:9866 size 10249 does not belong to any file | org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.processReport(BlockManager.java:1854) 每一个被删除的Block会产生一条日志信息，一个文件可能会存在一个或多个Block。当删除的文件数过多时，NameNode会花大量的时间打印日志，然后导致NameNode启动慢。当出现这种现象时，您可以通过如下方式提升NameNode的启动速度。删除大量文件时，不要立刻重启NameNode，待DataNode删除了对应的Block后重启NameNode，即不会存在这种情况。您可以通过hdfs dfsadmin -report命令来查看磁盘空间，检查文件是否删除完毕。如已大量出现以上日志，您可以将NameNode的日志级别修改为ERROR，NameNode不会再打印此日志信息。等待NameNode启动完毕后，再将此日志级别修改为INFO。修改日志级别后无需重启服务。

MAPREDUCE服务 MRS HDFS故障排除

云服务器内容精选

故障排除

7*24

备案

专业服务

退订

建议反馈

售前咨询热线