检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用于程序调测或运行的节点,需要与MRS集群内节点网络互通。 配置并导入样例工程 MRS提供了不同组件场景下的多种样例程序,用户可获取样例工程并导入本地开发环境中进行程序学习。 配置安全认证 连接开启了Kerberos认证的MRS集群时,应用程序中需配置具有相关资源访问权限的用户进行安全认证。 根据业务场景开发程序
用于程序调测或运行的节点,需要与MRS集群内节点网络互通。 配置并导入样例工程 MRS提供了不同组件场景下的多种样例程序,用户可获取样例工程并导入本地开发环境中进行程序学习。 配置安全认证 连接开启了Kerberos认证的MRS集群时,应用程序中需配置具有相关资源访问权限的用户进行安全认证。 根据业务场景开发程序
非HDFS数据残留导致数据分布不均衡 问题背景与现象 数据出现不均衡,某磁盘过满而其他磁盘未写满。 HDFS DataNode数据存储目录配置为“/export/data1/dfs--/export/data12/dfs”,看到的现象是大量数据都是存储到了“/export/data1/dfs”,其他盘的数据比较均衡。
准备Spark连接集群配置文件 配置并导入样例工程 Spark提供了不同场景下的多种样例程序,用户可以可获取样例工程并导入本地开发环境中进行程序学习,或者可以根据指导,新建一个Spark工程。 导入并配置Spark样例工程 新建Spark样例工程(可选) 配置安全认证 如果您使用的是开
DBService状态正常,组件无法连接DBService 问题背景与现象 上层组件连接DBService失败,检查DBService组件状态正常,两个实例状态也正常。 图1 DBService状态 原因分析 上层组件是通过dbservice.floatip连接的DBService。
新安装的集群HBase启动失败 问题背景 新安装的集群HBase启动失败,查看RegionServer日志报如下错误: 2018-02-24 16:53:03,863 | ERROR | regionserver/host3/187.6.71.69:21302 | Master passed
acl表目录丢失导致HBase启动失败 问题背景与现象 集群HBase启动失败 原因分析 查看HBase的HMaster日志,报如下错误: 检查HDFS上HBase的路径发现acl表路径丢失。 解决办法 停止HBase组件。 在HBase客户端使用hbase用户登录认证,执行如下命令。
通过Yarn WebUI查看作业日志时提示“Could not access logs page!” 问题背景与现象 登录Yarn WebUI界面查看作业日志“Logs”,然后单击“Local logs”,界面提示“Could not access logs page!”。 原因分析
进程被终止如何定位原因 问题背景与现象 在某环境出现DataNode异常重启,且确认此时未从页面做重启DataNode的操作,需要定位是什么进程终止了DataNode服务端进程。 原因分析 常见的进程被异常终止有2种原因: Java进程OOM被终止 一般Java进程都会配置OOM
HDFS客户端安装在数据节点导致数据分布不均衡 问题背景与现象 HDFS的DataNode数据分布不均匀,在某节点上磁盘使用率很高,甚至达到100%,其他节点空闲很多。 原因分析 客户端安装在该节点,根据HDFS数据副本机制,第一个副本会存放在本地机器,最终导致节点磁盘被占满,而其他节点空闲很多。
集群修改域名后Hive样例程序运行报错 问题背景与现象 Hive的二次开发代码样例运行报No rules applied to ****的错误: 原因分析 Hive的二次开发样例代码会加载core-site.xml,此文件默认是通过classload加载,所以使用的时候要把此配置
对同一张表或分区并发写数据导致任务失败 问题背景与现象 Hive执行插入语句时,报错HDFS上文件或目录已存在或被清除,具体报错如下: 原因分析 根据HiveServer的审计日志,确认该任务的开始时间和结束时间。 在上述时间区间内,查找是否有对同一张表或分区进行插入数据的操作。
HBase启动后原生页面显示RegionServer个数多于实际个数 问题背景 HBase启动后,HMaster原生页面显示RegionServer个数多于实际RegionServer个数。 查看HMaster原生页面,显示有4个RegionServer在线,如下图示: 原因分析
修改hostname后导致WebHCat启动失败 问题背景与现象 用户修改hostname导致WebHCat启动失败。 查看对应节点WebHCat启动日志( /var/log/Bigdata/hive/webhcat/hive.log),发现报如下错误: 原因分析 MRS Web
由于主备Master节点时间未同步导致ZooKeeper服务不可用 问题背景与现象 MRS集群ZooKeeper服务无法启动,出现ZooKeeper服务不可用告警。 原因分析 以root用户登录主、备Master节点,执行ntpq -p命令查看两节点时间未同步。 解决办法 以ro
ntpdate修改时间导致HDFS出现大量丢块 问题背景与现象 用ntpdate修改了集群时间,修改时未停止集群,修改后HDFS进入安全模式,无法启动。 退出安全模式后启动,hfck检查丢了大概1 TB数据。 原因分析 查看NameNode原生页面发现有大量的块丢失。 图1 块丢失
ClickHouse集群配置说明 背景介绍 ClickHouse通过多分片多副本的部署架构实现了集群的高可用,每个集群定义多个分片,每个分片具有2个或2个以上副本。当某节点故障时,分片内其他主机节点上的副本可替代工作,保证服务能正常运行,提高集群的稳定性。 本章节仅适用于MRS 3
通过Yarn WebUI查看队列信息时提示“ERROR 500”错误 问题背景与现象 在Yarn使用Capacity调度器时,单击Yarn WebUI页面的队列名称时,系统上报“ERROR 500”的错误。 HTTP ERROR 500 javax.servlet.ServletException:
DBServer实例一直处于Restoring状态 问题背景与现象 DBServer实例状态一直是Restoring状态,重启之后仍然不恢复。 原因分析 DBService组件会对“${BIGDATA_HOME}/MRS_XXX/install/dbservice/ha/modu
HDFS显示磁盘空间不足,其实还有10%磁盘空间 问题背景与现象 出现“HDFS磁盘空间使用率超过阈值”告警。 查看HDFS页面,查看磁盘空间使用率非常高。 原因分析 HDFS中配置了dfs.datanode.du.reserved.percentage参数:每个磁盘的保留空间所