检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
描述 向表中插入新的数据行。 如果指定了列名列表,那么这些列名列表必须与query语句产生列列表名完全匹配。表中不在列名列表中的每一列,其值会设置为null。 如果没有指定列名列表,则query语句产生的列必须与将要插入的列完全匹配。 使用insert into时,会往表中追加数据,而使用insert
CLUSTERING 命令功能 对Hudi表进行clustering操作,具体作用可以参考Hudi Clustering操作说明章节。 命令格式 执行clustering: call run_clustering(table=>'[table]', path=>'[path]',
读取文件时要打包到单个分区中的最大字节数。 spark.sql.badRecordsPath - Bad Records的路径。 spark.sql.legacy.correlated.scalar.query.enabled false 该参数设置为true: 当子查询中数据不重复的情况
仅支持将OBS上的数据导入DLI或OBS中。 支持将OBS中CSV,Parquet,ORC,JSON和Avro格式的数据导入到在DLI中创建的表。 将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 导入数据的编码格式仅支持UTF-8。 数据导出 只支持将DLI表(表类型为“Managed”)中的数据
需计费)。 存储计费 按照存储在DLI服务中的表数据存储量(单位为“GB”)收取存储费用。 在估算存储费用时,请特别注意,DLI采用压缩存储,通常能压缩到原文件大小的 1/5 。DLI存储按照压缩后的大小计费。 如果数据存储在OBS服务中,则DLI服务不收取存储费用,对应的费用由OBS服务收取。
GROUP BY可以按未出现在SELECT语句输出中的输入列名对输出进行分组。 例如: SELECT count(*) FROM customer GROUP BY mktsegment; GROUPING SETS 可以指定多个列进行分组,结果列中不属于分组列的将被设置为NUll。具有复杂分组语法(GROUPING
击对应的文件系统名称。 在“基础配置”下单击“生命周期规则”,创建或者编辑生命周期规则。 图1 创建生命周期规则 示例 在DLI数据多版本中,通过配置回收站加速删除过期的备份数据,数据回收到OBS的/.Trash目录下。 1 2 ALTER TABLE test_table SET
参考dbt_project.yml配置项目。 确保步骤2:配置DBT连接DLIprofile文件中已设置该项目的profiles.yml中定义的数据源名称。 图1 profile文件 图2 dbt_project.yml文件中配置的profile 验证配置 执行以下命令测试DBT配置是否正确: dbt
如果您的自定义函数需要在多个作业中使用,但对于不同作业某些参数值不同,直接在UDF中修改较为复杂。您可以在Flink OpenSource SQL编辑页面,自定义配置中配置参数pipeline.global-job-parameters,在UDF代码中获取该参数并使用。如需修改参数值,直接在FlinkOpenSource
如果您的自定义函数需要在多个作业中使用,但对于不同作业某些参数值不同,直接在UDF中修改较为复杂。您可以在Flink OpenSource SQL编辑页面,自定义配置中配置参数pipeline.global-job-parameters,在UDF代码中获取该参数并使用。如需修改参数值,直接在FlinkOpenSource
Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致? 问题描述 Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为不一致 根因分析 该问题的根因是数据库设置的时区不合理,通常该问题出现时F
request)。对Hudi表进行的每次操作都会产生元数据文件,而元数据文件过多会导致性能问题,所以元数据文件数量最好控制在1000以内。 如何执行Archive 写完数据后archive Spark SQL(set设置如下参数,写数据时触发) hoodie.archive.automatic=true
回个数,类型等。 初始化完成后,会调用process方法,真正处理在process函数中,在process中,每一次forward()调用产生一行。 如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。 public void process(Object[]
一个摘要字符串,可能会为了可读性而省略某些细节。 如果 force_serializable 设置为 TRUE,则字符串表示可以保留在目录中的完整数据类型。请注意, 特别是匿名的内联数据类型没有可序列化的字符串表示。在这种情况下返回 NULL。 CAST语法格式 CAST(value
v2, ...) DOUBLE 返回列表中的最大值。 hex hex(BIGINT a) hex(STRING a) STRING 将整数或字符转换为十六进制格式。 least least(T v1, T v2, ...) DOUBLE 返回列表中的最小值。 ln ln(DOUBLE
BI工具连接DLI方案概述 BI工具是数据分析的强大助手,提供数据可视化、报表生成和仪表板创建等功能。 DLI服务通过对数据的融合分析处理,可以为BI工具提供标准的、有效的高质量数据,供给后续的数据统计分析使用。 通过连接到DLI,BI工具可以更加灵活的使用DLI访问和分析数据,帮助企业快速做出基于数据的决策。
创建并提交Flink作业 场景描述 本章节指导用户通过API创建并运行Flink自定义作业。 约束限制 新队列第一次运行作业时,需要一定的时间,通常为6~10分钟。 涉及接口 创建弹性资源池:创建弹性资源池。 创建队列:在弹性资源池中添加队列。 上传分组资源:上传Flink自定义作业所需的资源包。
十进制函数和操作符 DECIMAL 字面量 可以使用 DECIMAL 'xxxxxxx.yyyyyyy' 语法来定义 DECIMAL 类型的字面量。 DECIMAL 类型的字面量精度将等于字面量(包括尾随零和前导零)的位数。范围将等于小数部分(包括尾随零)的位数。 示例字面量 数据类型
请求参数说明详情,请参见上传分组资源(废弃)。 请求示例 描述:在项目ID为48cc2c48765f481480c7db940d6409d1的项目下上传gatk分组中的资源。 示例URL:POST https://{endpoint}/v2.0/48cc2c48765f481480c7db940d6409d1/resources
Plan能够被成功执行,Compaction Plan只是记录了Hudi表中哪些Log文件要和哪些Parquet文件合并,所以最重要的地方在于保证Compaction Plan在被执行的时候它需要合并的文件都存在。而Hudi表中只有Clean操作可以清理文件,所以建议Clean的触发阈值(hoodie