检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink应用开发概述 Flink应用开发简介 Flink应用开发常用概念 Flink应用开发流程介绍 父主题: Flink开发指南
调测Flink应用 编译并运行Flink应用 查看Flink应用运行结果 父主题: Flink开发指南
Impala应用开发概述 Impala应用开发简介 Impala应用开发常用概念 Impala应用开发流程介绍 父主题: Impala开发指南
HBase应用开发概述 HBase应用开发简介 HBase应用开发常用概念 HBase应用开发流程介绍 父主题: HBase开发指南
HDFS应用开发概述 HDFS应用开发简介 HDFS应用开发常用概念 HDFS应用开发流程介绍 父主题: HDFS开发指南
Spark应用开发概述 Spark应用开发简介 Spark应用开发常用概念 Spark应用开发流程介绍 父主题: Spark开发指南
Kafka客户端角色包括Producer和Consumer两个角色,其应用开发流程是相同的。 开发流程中各个阶段的说明如图1和表1所示。 图1 Kafka客户端程序开发流程 表1 Kafka客户端开发的流程说明 阶段 说明 参考文档 准备开发环境 Kafka的客户端程序当前推荐使用java语言进行开发,可使用IntelliJ
删除作业执行对象(废弃) 功能介绍 删除指定的作业执行对象。该接口兼容Sahara。 MRS 3.x版本镜像,不支持MRS V1.1作业管理接口,需要使用V2作业管理接口。 接口约束 无 调试 您可以在API Explorer中调试该接口。 URI DELETE /v1.1/{p
参数解释: 标签的键。 约束限制: 不涉及 取值范围: 标签的key值可以包含任意语种字母、数字、空格和_.:=+-@,但首尾不能含有空格,不能以_sys_开头。 默认取值: 不涉及 values 否 Array of strings 参数解释: 标签的值。 约束限制: 标签的value值可以包含任意语种字母、数字、空格和_
} else { fmt.Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 请求成功 错误码 请参见错误码。 父主题: 版本元数据查询
使用client模式提交Spark任务的时候,Spark的driver进程是在客户端这边,而后面的executor都需要和Driver进行交互来运行作业。 如果NodeManager连不上客户端所在的节点,就会报错: 处理步骤 在客户端的Spark配置中指定Driver的IP地址: “<客户端安
并发提交大量oozie任务的时候,任务一直没有运行。 原因分析 Oozie提交任务会先启动一个oozie-launcher,然后由oozie-launcher提交真正的作业运行。默认情况下launcher和真实作业会在同一个队列中。 当并发提交大量oozie任务的时候就有可能出现启动了
Spark AM退出时,因为服务配置参数“spark.streaming.stopGracefullyOnShutdown”默认为“false”,系统不会完全等待AM正常退出,所以概率性的会出现有时能正常退出,任务状态显示失败,有时异常退出,状态未来得及上报的情况。 处理步骤 执行Spark
实例”,获取ZooKeeper实例的“业务IP”地址。 图1 ZooKeepe地址 选择“服务配置”页签,搜索“clientPort”参数,该参数的值即为ZooKeeper的端口。 方法二:通过Manager界面获取 登录Manager界面。 在Manager界面获取ZooKeeper的IP地址和端口。
创建MRS 3.x之前版本集群时,ZooKeeper组件为默认安装的组件,不在创建集群的界面上显示。 集群创建完成后可在集群“组件管理”页签看到ZooKeeper组件。 创建MRS 3.x及之后版本集群时,可以在创建集群的界面看到ZooKeeper组件,并默认勾选。 父主题: 集群创建类
集群负载 对于不同业务负载的业务,需要分开集群部署,便于不同负载的业务进行资源隔离。 集群并发 由于ClickHouse单个SQL会最大化使用每个主机上的CPU/内存/IO资源,对于复杂SQL查询(复杂聚合、复杂join计算)能够支持50~100并发,对于简单的SQL查询,支持100~200左右查询。
为各个分区的数据量是会有波动的,分区下桶的个数设计一般会按照最大分区数据量计算,这样会出现越细粒度的分区,桶的个数会冗余越多。例如: 采用天级分区,平均的日增数据量是3GB,最多一天的日志是8GB,这个会采用Bucket桶数= 8GB/2GB = 4 来创建表;每天的更新数据占比
具体可以按照下面的计算公式来保留2个小时的历史版本数据: 版本数设置为3600*2/版本interval时间,版本interval时间来自于flink作业的checkpoint周期,或者上游批量写入的周期。 COW表如果业务没有历史版本数据保留的特殊要求,保留版本数设置为1。 COW表的每个版本都是表的全量数据
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 set hoodie.tableName.consume.mode=INCREMENT
Flink流式读Hudi表建议 设置合理的消费参数避免File Not Found问题 当下游消费Hudi过慢,上游写入端会把Hudi文件归档,导致File Not Found问题。优化建议如下: 调大read.tasks。 如果有限流则调大限流参数。 调大上游compaction、archive、clean参数。