检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
获取账号ID 在调用接口的时候,部分URL中需要填入账号ID(domain-id),所以需要先在管理控制台上获取到账号ID。账号ID获取步骤如下: 登录管理控制台。 鼠标指向界面右上角的登录用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面查看账号ID。 图1 获取账号ID
Compaction用于合并mor表Base和Log文件,Compaction包含两个过程Schedule和Run。Schedule过程会在TimeLine里生成一个Compaction Plan,这个Compaction Plan会记录哪些parquet文件将会与哪些log文件进行合并,但是仅
对两个表进行join操作时,提示:SQL_ANALYSIS_ERROR: Reference 't.id' is ambiguous, could be: t.id, t.id.; 出现这个提示,表示进行join操作的两个表中包含相同的字段,但是在执行命令时,没有指定该字段的归属。
配置DLI访问其他云服务的委托权限 DLI委托概述 创建DLI自定义委托权限 常见场景的委托权限策略 典型场景DLI委托权限配置示例
全局变量的使用中,一个子账号是否可以使用其他子账号创建的全局变量 全局变量可用于简化复杂参数。例如,可替换长难复杂变量,提升SQL语句可读性。 全局变量的使用具有以下约束限制: 存量敏感变量只有创建用户才能使用,其余普通全局变量同账号同项目下的用户共用。 如果同账号同项目下存在多个相同
JOINS 允许合并多个relation的数据。 HetuEngine支持JOIN类型为:CROSS JOIN、INNER JOIN、OUTER JOIN(LEFT JOIN、RIGHT JOIN、FULL JOIN)、SEMIN JOIN和ANTI JOIN。 CROSS JOIN
如何给子用户授权查看Flink作业? 子用户使用DLI时,可以查看队列,但是不能查看Flink作业,可以通过在DLI中对子用户授权,或在IAM中对子用户授权: DLI授权管理 使用租户账号,或者作业owner账号,或有DLI Service Administrator权限的账号,登录DLI控制台。
UNION、INTERSECT和EXCEPT都是集合操作。都用来将多个SELECT语句的结果集合并成单个结果集。 UNION UNION将第一个查询的结果集中的所有行与第二个查询的结果集中的行合并。 query UNION [ALL | DISTINCT] query ALL和DIST
建立DLI与共享VPC中资源的网络连接 共享VPC简介 共享VPC是通过资源访问管理服务(RAM)将本账号的VPC资源共享给其他账号使用。例如,账号A可以将自己账号下创建的VPC和子网共享给账号B。在账号B接受共享以后,账号B可以查看到共享的VPC和子网,并可以使用该共享VPC和子网创建资源。 有关共享
double、real和float值存在一定的精度差。且我们不建议直接使用等号“=”对两个double类型数据进行比较。用户可以使用两个double类型相减,而后取绝对值的方式判断。当绝对值足够小时,认为两个double数值相等,例如: abs(0.9999999999 - 1.0000000000)
n,Hudi表的log将会越来越大,这必将会出现以下问题: Hudi表读取很慢,且需要很大的资源。 这是由于读MOR表涉及到log合并,大log合并需要消耗大量的资源并且速度很慢。 长时间进行一次Compaction需要耗费很多资源才能完成,且容易出现OOM。 阻塞Clean,如
gine中用qdigest表示这种数据结构。 函数 merge(qdigest) → qdigest 描述:将所有输入的qdigest数据合并成一个qdigest。 value_at_quantile(qdigest(T), quantile) → T 描述:给定0到1之间的数字
基本概念 账号 用户注册华为账号并开通华为云。账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用他们进行日常管理工作。 用户 由账号在IAM中创建的用户
Administrator)账号,用于管理和使用华为云的各个服务。因为“大数据平台组”需要使用DLI进行数据分析,所有“基础平台组组长”增加了一个权限为“DLI服务管理员”(DLI Service Administrator)的子账号用于管理和使用DLI服务。“基础平台组组长”按照公司两个业务对于数
提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
gest表示这种数据结构。T-digest可以合并,在存储时可以强转为VARBINARY,检索时再由VARBINARY转换为T-digest 函数 merge(tdigest)→tdigest 描述:将所有输入的tdigest数据合并成一个tdigest。 value_at_quantile(tdigest
SQL作业开发类 SQL作业使用咨询 如何合并小文件 DLI如何访问OBS桶中的数据 创建OBS表时怎样指定OBS路径 关联OBS桶中嵌套的JSON格式数据如何创建表 count函数如何进行聚合 怎样将一个区域中的DLI表数据同步到另一个区域中? SQL作业如何指定表的部分字段进行表数据的插入
提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。
快照查询 快照查询(Snapshot Queries)可以读到最新的commit/compaction产生的快照。对于MOR表,还会在查询中合并最新的delta log文件的内容,使读取的数据近实时。 增量查询 增量查询(Incremental Queries)只会查询到给定的co