检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase应用开发简介 HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。
读取HDFS指定文件内容 功能简介 获取HDFS上某个指定文件的内容。过程为: 使用FileSystem实例的open方法获取读取文件的输入流。 使用该输入流读取HDFS的指定文件的内容。 在完成后,需关闭所申请资源。 代码样例 如下是读文件的代码片段,详细代码请参考com.huawei
义和元数据查询。基于Hive的HCatalog功能,Hive、MapReduce开发人员能够共享元数据信息,避免中间转换和调整,能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL,提交MapReduce任务,查询MapReduce任务执行结果等操作。
Java样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection类。 样例代码获取方式请参考获取MRS应用开发样例工程。
Scala样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.FemaleInfoCollection。 样例代码获取方式请参考获取MRS应用开发样例工程。
Python样例代码 功能简介 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 代码样例 下面代码片段仅为演示,具体代码参见collectFemaleInfo.py。 样例代码获取方式请参考获取MRS应用开发样例工程。 代码样例: def contains(str
Java样例代码 功能介绍 实时统计连续网购时间超过半个小时的女性网民信息,将统计结果直接打印或者输出写入到Kafka中。 Spark Streaming Write To Print代码样例 下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples
Spark应用调优 Spark Core调优 SQL和DataFrame调优 Spark Streaming调优 Spark CBO调优 父主题: Spark应用开发常见问题
设计DAG 操作场景 合理的设计程序结构,可以优化执行效率。在程序编写过程中要尽量减少shuffle操作,合并窄依赖操作。 操作步骤 以“同行车判断”例子讲解DAG设计的思路。 数据格式:通过收费站时间、车牌号、收费站编号...... 逻辑:以下两种情况下判定这两辆车是同行车 如果两辆车都通过相同序列的收费站,
广播map代替数组 当每条记录需要查表,如果是Driver端用广播方式传递的数据,数据结构优先采用set/map而不是Iterator,因为Set/Map的查询速率接近O(1),而Iterator是O(n)。 数据倾斜 当数据发生倾斜(某一部分数据量特别大),虽然没有GC(Garbage Coll
配置HetuEngine应用安全认证 通过HSFabric实现KeyTab文件认证 KeyTab文件认证,需要“jaas-zk.conf”、“krb5.conf”和“user.keytab”文件。 “krb5.conf”和“user.keytab”文件参考MRS组件应用安全认证说明章节获得。
Spark Core样例程序 Spark Core样例程序开发思路 Spark Core样例程序(Java) Spark Core样例程序(Scala) Spark Core样例程序(Python) 父主题: 开发Spark应用
IoTDB Flink样例程序 FlinkIoTDBSink样例程序 FlinkIoTDBSource样例程序 父主题: 开发IoTDB应用
访问FusionInsight Manager系统,进行查询、添加、删除等操作。 流程分解 根据上述的业务场景进行功能分解,需要开发的功能点如表1所示。 表1 在Manager中开发的功能 序号 步骤 代码实现 1 添加用户 请参见添加Manager用户。 2 查找用户 请参见查找Manager用户。 3 修改用户
HBase ThriftServer连接样例程序 通过ThriftServer实例操作HBase表 通过ThriftServer实例向HBase表中写入数据 通过ThriftServer实例读HBase表数据 父主题: 开发HBase应用
0-SNAPSHOT.jar com.huawei.bigdata.HCatalogExample -libjars $LIB_JARS t1 t2 运行结果查看,运行后t2表数据如下所示: 0: jdbc:hive2://192.168.1.18:2181,192.168.1.> select *
配置Kafka应用安全认证 使用Sasl Kerberos认证 使用Sasl Plaintext认证 使用Kafka Token认证 父主题: 准备Kafka应用开发环境
Start Action 功能描述 流程任务的执行入口,每个流程任务有且仅有一个该节点。 参数解释 Start Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 to 后继action节点的名称 样例代码 <start to="mr-dataLoad"/>
Spark Core样例程序 Spark Core样例程序开发思路 Spark Core样例程序(Java) Spark Core样例程序(Scala) Spark Core样例程序(Python) 父主题: 开发Spark应用
作业提交参数间用空格隔开导致参数信息不被识别如何处理? 问: 作业提交参数间用空格隔开会导致参数信息不被识别吗? 答: 不同参数间用空格隔开,可通过在参数名前添加@的方式防止参数信息被明文存储,例如: @password=XXXXXX进行使用。 父主题: 作业管理类