检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL和DataFrame调优 Spark SQL join优化 INSERT...SELECT操作调优 父主题: Spark应用调优
Spark常用命令介绍 Spark命令详细的使用方法参考官方网站的描述:http://spark.apache.org/docs/latest/quick-start.html。 常用命令 Shell命令执行方法: 进入Spark客户端目录。 初始化环境变量。 source /o
Flink异步Checkpoint Scala样例代码 代码样例 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 发送数据形式 1 case class SEvent(id: Long, name: String, info: String, count:
在Linux中调测Presto应用开发 JDBC客户端运行及结果查看 执行mvn clean compile assembly:single生成jar包,在工程目录target目录下获取,比如:presto-examples-1.0-SNAPSHOT-jar-with-dependencies
使用Spark SQL删除MOR表后重新建表写入数据无法同步ro、rt表 问题 使用Spark SQL删除MOR表后重新建表写入数据不能实时同步ro、rt表,报错如下: WARN HiveSyncTool: Got runtime exception when hive syncing
为什么新创建用户修改完密码后无法登录Ranger 问题 使用新建用户登录Ranger页面,为什么在修改完密码后登录报401错误? 回答 由于UserSync同步用户数据有时间周期,默认是5分钟,因此在Manager上新创建的用户在用户同步成功前无法登录Ranger,因为Range
Hive是否支持对同一张表或分区进行并发写数据 问题 为什么通过接口并发对Hive表进行写数据会导致数据不一致? 该章节仅适用于MRS 3.1.2版本。 回答 Hive不支持对同一张表或同一个分区进行并发数据插入,这样会导致多个任务操作同一个数据临时目录,一个任务将另一个任务的数
Spark导出带有相同字段名的表,结果导出失败 问题 在Spark的spark-shell上执行如下代码失败: val acctId = List(("49562", "Amal", "Derry"), ("00000", "Fred", "Xanadu")) val rddLeft
ResourceManager重启后,应用程序会移回原来的队列 问题 将应用程序从一个队列移到另一个队列时,为什么在RM(ResourceManager)重启后,应用程序会被移回原来的队列? 回答 这是RM的使用限制,应用程序运行过程中移动到别的队列,此时RM重启,RM并不会在状态存储中存储新队列的信息。
向HBase表中插入数据 功能简介 HBase是一个面向列的数据库,一行数据,可能对应多个列族,而一个列族又可以对应多个列。通常,写入数据的时候,需要指定要写入的列(含列族名称和列名称)。HBase通过HTable的put方法来Put数据,可以是一行数据也可以是数据集。 代码样例
Flink DataStream样例程序(Scala) 功能介绍 实时统计连续网购时间超过2个小时的女性网民信息,将统计结果直接打印出来。 代码样例 下面代码片段仅为演示,完整代码参见FlinkStreamScalaExample样例工程下的com.huawei.bigdata.flink
向HBase表中插入数据 功能简介 HBase是一个面向列的数据库,一行数据,可能对应多个列族,而一个列族又可以对应多个列。通常,写入数据的时候,需要指定要写入的列(含列族名称和列名称)。HBase通过HTable的put方法来Put数据,可以是一行数据也可以是数据集。 代码样例
向Phoenix表中插入数据 功能简介 使用Phoenix实现写数据。 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“PhoenixSample”类的testPut方法中。 /** * Put data */ public
HBase Shell接口介绍 您可以使用Shell在服务端直接对HBase进行操作。HBase的Shell接口同开源社区版本保持一致,请参见http://learnhbase.wordpress.com/2013/03/02/hbase-shell-commands/ Shell命令执行方法:
BulkLoad和Put应用场景有哪些 问题 HBase支持使用bulkload和put方式加载数据,在大部分场景下bulkload提供了更快的数据加载速度,但bulkload并不是没有缺点的,在使用时需要关注bulkload和put适合在哪些场景使用。 回答 bulkload是
加载数据到Hive表中 功能介绍 本小节介绍了如何使用HQL向已有的表employees_info中加载数据。从本节中可以掌握如何从本地文件系统、MRS集群中加载数据。以关键字LOCAL区分数据源是否来自本地。 在启用了安全服务的集群中执行如下操作,需要在数据库中具有UPDATE
Hive JDBC接口介绍 Hive JDBC接口遵循标准的JAVA JDBC驱动标准。 Hive作为数据仓库类型数据库,其并不能支持所有的JDBC标准API。例如事务类型的操作:rollback、setAutoCommit等,执行该类操作会获得“Method not suppo
HDFS Java API接口介绍 HDFS完整和详细的接口可以直接参考官方网站上的描述: http://hadoop.apache.org/docs/r3.1.1/api/index.html HDFS常用接口 HDFS常用的Java类有以下几个: FileSystem:是客户端应用的核心类。常用接口参见表1。
Spark同步HBase数据到CarbonData样例程序 Spark同步HBase数据到CarbonData开发思路 Spark同步HBase数据到CarbonData(Java) 父主题: 开发Spark应用
MapReduce接口介绍 MapReduce Java API接口介绍 MapReduce REST API接口介绍 父主题: MapReduce应用开发常见问题