检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
来将多个SELECT语句的结果集合并成单个结果集。 UNION UNION将第一个查询的结果集中的所有行与第二个查询的结果集中的行合并。 query UNION [ALL | DISTINCT] query ALL和DISTINCT表示是否返回包含重复的行。ALL返回所有的行;D
Zookeeper中的根目录,默认是/hbase connector.rowkey 否 读取复合rowkey的内容,并根据设置的大小,赋给新的字段 形如:rowkey1:3,rowkey2:3,… 其中3表示取该字段的前3个byte,该值不能大于该字段的字节大小,且该值不能小于1。表示
时,队列2不能使用队列1中的资源,只能单独对队列1进行扩容。 添加到同一个弹性资源池的多个队列,CU资源可以共享,达到资源的合理利用。 配置跨源时,必须为每个队列分配不重合的网段,占用大量VPC网段。 多队列通过弹性资源池统一进行网段划分,减少跨源配置的复杂度。 资源调配 多个队
多少字节大小的归档文件,默认值5368709120字节(5G)。 hoodie.archive.file.cleaner.days.retained 当清理策略为KEEP_ARCHIVED_FILES_BY_DAYS时,该参数可以设置保留多少天以内的归档文件,默认值30(天)。 注意事项
参考增强型跨源连接,在DLI上根据MySQL和Kafka所在的虚拟私有云和子网分别创建相应的增强型跨源连接,并绑定所要使用的Flink弹性资源池。 设置MySQL和Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据MySQL和Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。
DLI提供了一个通用接口,可用于获取用户在启动Spark作业时设置的委托的临时凭证。该接口将获取到的该作业委托的临时凭证封装到com.huaweicloud.sdk.core.auth.BasicCredentials类中。 获取到的委托的临时认证封装到com.huaweicloud.sdk.core
CURRENT_TIMESTAMP函数用于返回当前时间戳。 命令格式 current_timestamp() 参数说明 无 返回值说明 返回TIMESTAMP类型的时间戳。 示例代码 返回1692002816300。 select current_timestamp(); 父主题: 日期函数
eventlog的压缩格式设置为zstd 说明: Spark3.3.x版本中,spark.eventLog.compression.codec的默认值被设置为zstd,Spark在压缩事件日志时将不再支持使用spark.io.compression.codec的参数值。 Spark2
弹性资源池队列扩缩容策略配置的最小CU数。 最大CUs 弹性资源池队列扩缩容策略配置的最大CU数。 优先级 弹性资源池队列扩缩容策略的优先级。优先级范围为1到100,数字越小,优先级越低。 执行引擎 添加的队列类型为“SQL队列”时执行引擎为spark。 添加的队列类型为“通用队列”时执行
进度展示为1。此时progress表示整个作业的运行进度,因为没有子作业在运行,sub_job_id不展示。 如果有子作业在运行中,则展示该子作业的运行进度,progress的计算方法为:子作业已经完成的task数除以子作业总的task数。此时progress表示子作业的运行进度,sub_job_id展示。
随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。quantile digest是一个分位数的集合,当需要查询的数据落在某个分位数附近时,就可以用这个分位数做为要查询数据的近似值。它的精度可以调节,但更高精度的结果会带来空间的昂贵开销。
initcap函数用于将文本字符串转换成首字母大写其余字母小写的形式。 命令格式 initcap(string A) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 A 是 STRING 待转换的文本字符串。 返回值说明 返回一个STRING类型字符串,字符串中每个单词首字母大写,其余变为小写。
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表4 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
参数描述 表1 UPDATE参数 参数 描述 tableIdentifier 在其中执行更新操作的Hudi表的名称。 column 待更新的目标列。 EXPRESSION 需在目标表中更新的源表列值的表达式。 boolExpression 过滤条件表达式。 示例 update h0 set
save() 表1 redis操作参数 参数 描述 host 需要连接的redis集群的IP。 获取方式为:登录华为云官网,之后搜索redis,进入“分布式缓存服务”,接着选择“缓存管理”,根据主机名称需要的IP,可选择其中任意一个IP进行复制即可(其中也包含了port信息),请参考图1。
非必填。用于指定schema中的某个字段作为Redis中key的标识。在插入数据时与参数“table”配合使用。 partitions.number 读取数据时,并发task数。 scan.count 每批次读取的数据记录数,默认为100。如果在读取过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。
OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。
湖探索用户指南》。 metric 所创建的dli表对应的OpenTSDB中的指标名称。 tags metric对应的标签,用于归类、过滤、快速检索等操作,可以是1到8个,以“,”分隔,包括对应metric下的所有tagk的值。 通过SQL API访问 插入数据 1 sparkSession
弹性资源池的实际CUs、CU范围、规格的含义 实际CUs:弹性资源池当前分配的可用CUs。 CU范围:CU设置主要是为了控制弹性资源池扩缩容的最大最小CU范围,避免无限制的资源扩容风险。 弹性资源池中所有队列的最小CU数之和需要小于等于弹性资源池的最小CU数。 弹性资源池中任意一
注意事项 所要进行JOIN连接的表必须是已经存在的表,否则会出错。 此处的attr_expr_list中所涉及的字段只能是左表中的字段,否则会出错。 示例 返回选课学生的姓名及其所选的课程编号。 1 2 SELECT student_info.name, student_info.courseId