检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此条命令可以根据传入的DataNode生成一个Json文件,该文件包含了数据移动的源磁盘、目标磁盘、待移动的块等信息。同时,该命令还支持指定一些其他网络带宽参数等。 hdfs diskbalancer -query <Hostname:$dfs.datanode.ipc.port> 集群默认的port值为986
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 问题 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 回答 Spark SQL对用户SQL语句的执行逻辑是:首先解析
jar”,jar包名称以实际打包结果为准。 上传生成的应用包“MRTest-XXX.jar”到Linux客户端上,例如/opt/client/conf,与配置文件位于同一目录下。 在Linux环境下运行样例工程。 对于MapReduce统计样例程序,执行如下命令。 yarn jar MRTest-XXX.jar
为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 问题 为什么有时访问没有权限的parquet表时,在上报“Missing Privileges”错误提示之前,会运行一个Job? 回答 Spark SQL对用户SQL语句的执行逻辑是:首先解析
found”的值修改为“true”(普通集群不需配置)。 创建Topic。 {zkQuorum}表示ZooKeeper集群信息,格式为IP:port。 $KAFKA_HOME/bin/kafka-topics.sh --create --zookeeper {zkQuorum}/kafka
ThirdKafka数据库的Topic需要能被MRS集群消费,操作步骤请参考ThirdPartyKafka前置准备。 在FusionInsight Manager中创建一个人机用户,例如“cdluser”,加入用户组cdladmin、hadoop、kafka、supergroup,主组选择“cdladmin”
MRS集群更换磁盘(适用于2.x及之前) MRS集群更换磁盘(适用于3.x) MRS备份任务执行失败 Core节点出现df显示的容量和du显示的容量不一致 如何解除网络ACL的关联子网 修改节点主机名后导致MRS集群状态异常 进程被终止如何定位原因 MRS配置跨集群互信失败 MRS集群节点使
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。
ThirdKafka数据库的Topic需要能被MRS集群消费,操作步骤请参考ThirdPartyKafka前置准备。 在FusionInsight Manager中创建一个人机用户,例如“cdluser”,加入用户组cdladmin、hadoop、kafka、supergroup,主组选择“cdladmin”
Plugin,说明见下表。 表1 HetuEngine Function Plugin说明 名称 说明 类型 add_two 输入一个整数,返回其加2后的结果 ScalarFunction avg_double 聚合计算指定列的平均值,且该列的字段类型为double AggregationFunction
Flink常见问题 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Gabage Collection,垃圾回收),但是task执行时间严重不一致。 需要重新设计key,以更小粒度的key使得task大小合理化。 修改并行度。 调用rebalance操作,使数据分区均匀。
确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在Linux系统HDFS客户端新建一个文本文件“data”,内容如下: Miranda,32 Karlie,23 Candice,27 在HDFS路径下建立一个目录,例如创建“/home”,并上传“data”文件到此目录,命令如下:
用户自定义JDBCServer的客户端,使用JDBC连接来进行表的创建、数据加载、查询和删除。 数据规划 确保以多主实例模式启动了JDBCServer服务,并至少有一个实例可连接客户端。在JDBCServer节点上分别创建“/home/data”文件,内容如下: Miranda,32 Karlie,23 Candice
会按轮训算法将数据发送到各个分片。 该键是写分布式表保证数据均匀分布在各分片的唯一方式。 规则 不建议写分布式表。 由于分布式表写数据是异步方式,客户端SQL由Balancer路由到一个节点之后,一批写入数据会先落入写入的节点,随后根据分布式表schema定义数据分布规则,将数据
Oozie作业执行失败常用排查手段 根据任务在Yarn上的任务日志排查,首先把实际的运行任务,比如Hive SQL通过beeline运行一遍,确认Hive无问题。 出现“classnotfoundException”等报错,排查“/user/oozie/share/lib”路径下
Oozie作业执行失败常用排查手段 根据任务在Yarn上的任务日志排查,首先把实际的运行任务,比如Hive SQL通过beeline运行一遍,确认Hive无问题。 出现“classnotfoundException”等报错,排查“/user/oozie/share/lib”路径下
java:363) 数据目录中数据块的数量会显示为Metric。用户可以通过以下URL对该值进行监视http://<datanode-ip>:<http-port>/jmx,如果该值超过4倍的限定值(4*1M),建议用户配置多个驱动器并重新启动HDFS。 恢复步骤: 在DataNode上配置多个数据目录。
登录到impala客户端所在的节点上,source环境变量,然后执行如下命令。 impala-shell -i {impalad实例ip:port} -Q request_pool=root.default (fair-scheduler.xml与llama-site.xml文件中配置的资源池)
while splitting logs in [hdfs://hacluster/hbase/WALs/<RS-Hostname>,<RS-Port>,<startcode>-splitting] Task = installed = 6 done = 3 error = 3 ?at
登录到impala客户端所在的节点上,source环境变量,然后执行如下命令。 impala-shell -i {impalad实例ip:port} -Q request_pool=root.default (fair-scheduler.xml与llama-site.xml文件中配置的资源池)