检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置过滤掉分区表中路径不存在的分区 配置场景 当读取HIVE分区表时,如果指定的分区路径在HDFS上不存在,则执行select查询时会报FileNotFoundException异常。此时可以通过配置“spark.sql.hive.verifyPartitionPath”参数来过滤掉分区路径不存在的分区
使用Ranger时适配第三方JDK 配置场景 当使用Ranger作为spark sql的权限管理服务时,访问RangerAdmin需要使用集群中的证书。若用户未使用集群中的JDK或者JRE,而是使用第三方JDK时,会出现访问RangerAdmin失败,进而spark应用程序启动失败的问题
Hudi在upsert时占用了临时文件夹中大量空间 问题 Hudi在upsert时占用了临时文件夹中大量空间。 回答 当UPSERT大量输入数据时,如果数据量达到合并的最大内存时,Hudi将溢出部分输入数据到磁盘。 如果有足够的内存,请增加spark executor的内存和添加“
HBase本地二级索引介绍 场景介绍 HBase是基于Key-Value的分布式存储数据库,基于rowkeys对表中的数据按照字典进行排序。如果您根据指定的rowkey查询数据,或者扫描指定rowkey范围内的数据,HBase可以快速查找到需要读取的数据,从而提高效率。在大多数实际情况下
使用BulkLoad工具查询HBase表的行统计数 操作场景 HBase BulkLoad工具支持根据rowkey的命名规则、rowkey的范围、字段名以及字段值统计符合条件的行数。 操作步骤 直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop
如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常 问题 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常。 回答 建表过程中如果发生网络故障、HDFS故障或者Active HMaster故障等情况时,可能会造成部分Region上线失败而处于
在Spark应用执行过程中NodeManager出现OOM异常 问题 当开启Yarn External Shuffle服务时,在Spark应用执行过程中,如果当前shuffle连接过多,Yarn External Shuffle会出现“java.lang.OutofMemoryError
执行Hive命令修改元数据时失败或不生效 问题 对于datasource表和Spark on HBase表,执行Hive相关命令修改元数据时,出现失败或者不生效情况。 回答 当前版本不支持执行Hive修改元数据的相关命令操作datasource表和Spark on HBase表。
BulkLoad接口使用 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase,将要插入的数据的rowKey构造成rdd,然后通过HBaseContext的bulkLoad接口将rdd写入HFile中。将生成的HFile文件导入HBase表的操作采用如下格式的命令
Spark Structured Streaming状态操作样例程序 Spark Structured Streaming状态操作样例程序开发思路 Spark Structured Streaming状态操作样例程序(Scala) 父主题: 开发Spark应用
在本地Windows环境中调测Spark应用 配置Windows通过EIP访问集群Spark 在本地Windows环境中编包并运行Spark程序 在本地Windows环境中查看Spark程序调试结果 父主题: 调测Spark应用
HBase Web UI接口介绍 操作场景 Web UI展示了HBase集群的状态,其中包括整个集群概况信息、RegionServer和Master的信息、快照、运行进程等信息。通过Web UI提供的信息可以对整个HBase集群的状况有一定的了解。 请联系管理员获取具有访问Web
Flink DataStream样例程序开发思路 场景说明 假定用户有某个网站周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Flink的DataStream应用程序实现如下功能: DataStream应用程序可以在Windows环境和Linux环境中运行。 实时统计总计网购时间超过
Flink开启Checkpoint样例程序(Java) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 快照数据 该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。 下面代码片段仅为演示,完整代码参见FlinkCheckpointJavaExample
Flink开启Checkpoint样例程序(Scala) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 发送数据形式。 下面代码片段仅为演示,完整代码参见FlinkCheckpointScalaExample样例工程下的com.huawei.bigdata.flink.examples.SEvent
HBase Java API接口介绍 接口使用建议 建议使用org.apache.hadoop.hbase.Cell作为KV数据对象,而不是org.apache.hadoop.hbase.KeyValue。 建议使用Connection connection = ConnectionFactory.createConnection
常见jar包冲突处理方式 问题现象 Spark能对接很多的第三方工具,因此在使用过程中经常会依赖一堆的三方包。而有一些包MRS已经自带,这样就有可能造成代码使用的jar包版本和集群自带的jar包版本不一致,在使用过程中就有可能出现jar包冲突的情况。 常见的jar包冲突报错有: 1
在本地Windows环境中调测Spark应用 配置Windows通过EIP访问集群Spark 在本地Windows环境中编包并运行Spark程序 在本地Windows环境中查看Spark程序调试结果 父主题: 调测Spark应用
Hive WebHCat接口介绍 以下示例的IP为WebHCat的业务IP,端口为安装时设置的WebHCat HTTP端口。 除“:version”、“status”、“version”、“version/hive”、“version/hadoop”以外,其他API都需要添加user.name
在本地Windows环境中调测ClickHouse应用 编译并运行程序 在程序代码完成开发后,您可以在Windows环境中运行应用。本地和集群业务平面网络互通时,您可以直接在本地进行调测。在开发环境IntelliJ IDEA工程“clickhouse-examples”中单击“Run