检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Oozie应用开发简介 Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎,Oozie流程基于有向无环图(Directed Acyclical Graph)来定义和描述,支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高,与Hadoop生态系统各组件紧密结合
Spark应用开发简介 Spark简介 Spark是分布式批处理框架,提供分析挖掘与迭代式内存计算能力,支持多种语言(Scala/Java/Python)的应用开发。 适用以下场景: 数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性。 迭代计算
Kafka应用开发规则 调用Kafka API(AdminZkClient.createTopic)创建Topic 对于Java开发语言,正确示例: import kafka.zk.AdminZkClient; import kafka.zk.KafkaZkClient; import
Spark应用开发规则 Spark应用中,需引入Spark的类 对于Java开发语言,正确示例: // 创建SparkContext时所需引入的类。 import org.apache.spark.api.java.JavaSparkContext // RDD操作时引入的类。 import
Spark应用开发建议 RDD多次使用时,建议将RDD持久化 RDD在默认情况下的存储级别是StorageLevel.NONE,即既不存磁盘也不放在内存中,如果某个RDD需要多次使用,可以考虑将该RDD持久化,方法如下: 调用spark.RDD中的cache()、persist()
Doris应用开发规范 Doris建表规范 Doris数据变更规范 Doris命名规范 Doris数据查询规范 Doris数据导入规范 Doris UDF开发规范 Doris连接运行规范
Impala应用开发规则 创建集群时只需指定一个Catalog和一个StoreStore 如果已经创建了两个Catalog和StateStore,Impalad角色需要指定--catalog_service_host和--state_store_host,Catalog角色需要指定
Impala应用开发建议 Coordinator和Executor分离部署,Coordinator根据集群规模部署2-5个 Coordinator承担缓存元数据,解析SQL执行计划,和响应客户端请求的功能主要使用jvm内存,而Executor承担数据读写,算子计算等功能,主要使用offheap
Flink开发规范概述 范围 本规范主要描述基于MRS-Flink组件进行湖仓一体、流批一体方案的设计与开发方面的规则。其主要包括以下方面的规范: 数据表设计 资源配置 性能调优 常见故障处理 常用参数配置 术语约定 本规范采用以下的术语描述: 规则:编程时必须遵守的原则。 建议:
Flink任务开发规范 Flink任务开发规则 Flink任务开发建议 父主题: Flink应用开发规范
Flink开发样例 Flink支持对接ClickHouse、HBase、HDFS等多个服务,具体支持版本及样例详情可参考如下: FlinkServer对接ClickHouse FlinkServer对接HBase FlinkServer对接HDFS FlinkServer对接Hive
配置MapReduce应用安全认证 场景说明 在安全集群环境下,各个组件之间的相互通信不能够简单地互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交MapReduce应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交MapReduce的应用程序中需要写入安全认证代码
HBase应用开发概述 HBase应用开发简介 HBase应用开发常用概念 HBase应用开发流程介绍 HBase应用开发样例工程介绍 父主题: HBase开发指南(安全模式)
HBase应用开发简介 HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取
Storm应用开发概述 Storm应用开发简介 Storm应用开发常用概念 Storm应用开发流程介绍 父主题: Storm开发指南
OpenTSDB应用开发概述 OpenTSDB应用开发简介 OpenTSDB应用开发常用概念 OpenTSDB应用开发流程介绍 父主题: OpenTSDB开发指南
OpenTSDB应用开发简介 OpenTSDB简介 OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点
Hive应用开发概述 Hive应用开发简介 Hive应用开发常用概念 Hive应用开发开发流程 Hive应用开发样例工程介绍 父主题: Hive开发指南(安全模式)
Hive应用开发简介 Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HQL语言操作结构化数据,其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下
Impala应用开发简介 Impala直接对存储在HDFS、HBase或对象存储服务(OBS)中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和用户界面