检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
窗口可以定义在一个分区表上。PARTITION BY 子句代表着每行数据只在其所属的数据分区进行聚合。 范围(RANGE)定义:范围(RANGE)定义指定了聚合中包含了多少行数据。范围通过 BETWEEN 子句定义上下边界,其内的所有行都会聚合。Flink 只支持 CURRENT ROW 作为上边界。有两种方法可以定义范围:ROWS
r之外,还可以对接云上Mysql、GaussDB、MRS HBase、DMS、DWS、OBS等,开箱即用;在资源方面,产品可以自适应业务的流量,智能对资源进行弹性伸缩,保障业务稳定性,不需要人工进行额外调试。 DLI Flink与MRS Flink的功能对比如表1所示。 表1 DLI
异常重试最大次数,单位:次/小时。取值范围:-1或大于0。默认值为“-1”,表示无限次数。 static_estimator_config 否 String 每个算子的流量/命中率配置,json格式的字符串。例如: {"operator_list":[{"id":"0a448493b4782967b150582570326227"
设置执行clustering时最多选择多少个FileGroup,该值越大并发度越大 30 hoodie.clustering.plan.strategy.max.bytes.per.group 设置执行clustering时每个FileGroup最多有多少数据参与clustering 2
Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、
Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考虑,建议Compaction作业CPU与内存的比例按照1:4~1:8配置,保证Compaction作业稳定运行。当Compac
入的周期。 COW表如果业务没有历史版本数据保留的特殊要求,保留版本数设置为1。 COW表的每个版本都是表的全量数据,保留几个版本就会冗余多少个版本。因此如果业务无历史数据回溯的需求,保留版本数设置为1,也就是保留当前最新版本 clean作业每天至少执行一次,可以2~4小时执行一次。
Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上
优化建议。 通过以上分析,了解到sql和flink这两个队列几乎是在持续使用的,建议通过购买包周期队列来降低使用成本。另外,对于明确需要使用多少CU时的作业,也可以提前购买对应的CU时套餐包,来降低使用成本。 企业中的业务模式较多且经常变化,成本管理员通常并不能全面及时了解花销较大
DECIMAL(precision,scale) 10进制精确数字类型。固定有效位数和小数位数的数据类型,例如:3.5 precision:表示最多可以表示多少位的数字。 scale:表示小数部分的位数。 - 1<=precision<=38 0<=scale<=38 若不指定precision和
应用的性能。这种商业测试可以全方位评测系统的整体商业计算综合能力,对厂商的要求更高,同时也具有普遍的商业实用意义,目前在银行信贷分析和信用卡分析、电信运营分析、税收分析、烟草行业决策分析中都有广泛的应用。 TPC-H 基准测试是由 TPC-D(由 TPC 组织于 1994 年制定
别。 多AZ部署,支持跨AZ高可用。 租户资源隔离 不同队列之间资源隔离,减少队列之间的相互影响。 分时按需弹性 分钟级别扩缩容,从容应对流量洪峰和资源诉求。 支持分时设置队列优先级和配额,提高资源利用率。 作业级资源隔离(暂未实现,后续版本支持) 支持独立Spark实例运行SQL作业,减少作业间相互影响。
char_matchcount char_matchcount(string <str1>, string <str2>) BIGINT 计算str1中有多少个字符出现在str2中。 encode encode(string <str>, string <charset>) BINARY 将str按照charset格式进行编码。
选择为“普通列”或“分区列”。 普通列 列名称 表的列名。列名应至少包含一个字母,并允许下划线(_),但不支持纯数字。 可选择“普通列”或“分区列”。“分区列”是分区表专用的,对用户数据进行分区,可提高查询效率。 说明: 列名不区分大小写,不能相同。 name 数据类型 与“列名”对应,表示该列的数据类型。 字符串(string):字符串类型。
创建Bucket索引表调优 创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie
DLI自定义策略 如果系统预置的DLI权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考权限策略和授权项。 目前华为云支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。
创建批处理作业 功能介绍 该API用于在某个队列上创建批处理作业。 调试 您可以在API Explorer中调试该接口。 URI URI格式: POST /v2.0/{project_id}/batches 参数说明 表1 URI参数 参数名称 是否必选 参数类型 说明 project_id
spark.sql.aggregate.adaptivePartialAggregationInterval:该参数用于配置分析间隔,即在处理了多少行数据之后,Spark会进行一次分析,用来决定是否需要跳过部分聚合。 spark.sql.aggregate.adaptivePartia
窗口Top-N 功能描述 窗口 Top-N 是特殊的 Top-N,它返回每个分区键的每个窗口的N个最小或最大值。 与普通Top-N不同,窗口Top-N只在窗口最后返回汇总的Top-N数据,不会产生中间结果。窗口 Top-N 会在窗口结束后清除不需要的中间状态。 窗口 Top-N
查询作业模板列表 功能介绍 该API用于查询作业模板列表。 调试 您可以在API Explorer中调试该接口。 URI URI格式: GET /v3/{project_id}/templates?type=spark 参数说明 表1 URI参数说明 参数 是否必选 参数类型 描述