检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Kafka 多线程Producer API使用样例 功能介绍 在Kafka Producer API使用样例基础上,实现了多线程Producer,可启动多个Producer线程,并通过指定相同key值的方式,使每个线程对应向特定Partition发送消息。 下面代码片段在com.huawei
Presto应用开发常用概念 Connector Connector将Presto适配到如Hive或关系型数据库的数据源。 Catalog Catalog包含schema以及引用通过connector连接的数据源 Schema Schema是组织数据表的一种形式。 父主题: Presto应用开发概述
Hive对外接口介绍 Hive JDBC接口介绍 Hive WebHCat接口介绍 父主题: Hive应用开发常见问题
创建ClickHouse数据库 本章节介绍创建ClickHouse数据库样例代码。 以下代码片段在com.huawei.clickhouse.examples包的“Demo”类的createDatabase方法中。 通过on cluster语句在集群中创建表1中以databaseName参数值为数据库名的数据库。
常用Oozie API接口介绍 Oozie Shell接口介绍 Oozie Java接口介绍 Oozie Rest接口介绍 父主题: Oozie应用开发常见问题
Streaming从Kafka读取数据再写入HBase 场景说明 Java样例代码 Scala样例代码 父主题: 开发Spark应用
Yarn模式下动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
MapReduce统计样例程序 MapReduce统计样例程序开发思路 MapReduce统计样例代码 父主题: 开发MapReduce应用
Oozie Java接口介绍 Java API主要由org.apache.oozie.client.OozieClient提供。 表1 接口介绍 方法 说明 public String run(Properties conf) 运行Job。 public void start(String
通过JDBC访问Spark SQL样例程序 通过JDBC访问Spark SQL样例程序开发思路 通过JDBC访问Spark SQL样例程序(Java) 通过JDBC访问Spark SQL样例程序(Scala) 父主题: 开发Spark应用
Spark Structured Streaming样例程序 Spark Structured Streaming样例程序开发思路 Spark Structured Streaming样例程序(Java) Spark Structured Streaming样例程序(Scala)
配置IoTDB应用安全认证 使用Keytab文件进行JDBC安全认证 使用Keytab文件进行Session安全认证 父主题: 准备IoTDB应用开发环境
Oozie样例程序开发思路 开发流程 工作流配置文件“workflow.xml”(“coordinator.xml”是对工作流进行调度,“bundle.xml”是对一组coordinator进行管理)与“job.properties”。 如果有实现代码,需要开发对应的jar包,例如Java
job.properties 功能描述 流程的属性定义文件,定义了流程运行期间使用的外部参数值对。 参数解释 “job.properties”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 nameNode HDFS NameNode集群地址 resourceManager
使用Spark执行Hudi样例程序 使用Spark执行Hudi样例程序开发思路 使用Spark执行Hudi样例程序(Java) 使用Spark执行Hudi样例程序(Scala) 使用Spark执行Hudi样例程序(Python) 父主题: 开发Spark应用
Flink Kafka样例程序(Java) 功能介绍 在Flink应用中,调用flink-connector-kafka模块的接口,生产并消费数据。 代码样例 下面列出producer和consumer主要逻辑代码作为演示。 完整代码参见com.huawei.bigdata.flink
可能原因 抓取到Hudi中的一批数据量过大,导致任务内存不足。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > CDL”,单击“CDLService UI”右侧的超链接进入CDLService WebUI界面,在数据同步任务作业列表界面选择该作业所在行的“更多
优化数据倾斜场景下的Spark SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其他分桶。最终导致部分Task过重,运行很慢;其他Task过轻,运行很快。一方面,数据量大Task运行慢,使得计算性
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuff
NodeManager关闭导致Executor(s)未移除 问题 在Executor动态分配打开的情况下,如果在任务执行过程中,执行NodeManager关闭动作,NodeManager关闭节点上的Executor(s)在空闲超时之后,在driver页面上未被移除。 回答 这是因