检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的DWS、MRS等服务时,网络互通需满足如下条件: i. CDM集群与
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS时,网络互通需满足如下条件: i. CDM集群与云上
语句返回的记录行数。聚合函数如表1所示。 表1 聚合函数表 函数 返回值类型 描述 COUNT([ ALL ] expression | DISTINCT expression1 [, expression2]*) BIGINT 返回表达式不为NULL的输入行数。对每个值的一个唯一实例使用DISTINCT。
语句返回的记录行数。聚合函数如表1所示。 表1 聚合函数表 函数 返回值类型 描述 COUNT([ ALL ] expression | DISTINCT expression1 [, expression2]*) BIGINT 返回表达式不为NULL的输入行数。对每个值的一个唯一实例使用DISTINCT。
返回一个0.0和1.0之间的随机double类型的数(包含0.0,不包含1.0)。 RAND(A) 所有数字类型 根据初始化种子A,返回一个0.0和1.0之间的随机double类型的数(包含0.0,不包含1.0)。若初始化种子相同,则返回的随机数相同。 RAND_INTEGER(A) 所有数字类型
afka的基本信息页面。 在“连接信息”中获取该Kafka的“内网连接地址”,在“基本信息”的“网络”中获取获取该实例的“虚拟私有云”和“子网”信息,方便后续操作步骤使用。 单击“网络”中的安全组名称,在“入方向规则”中添加放通队列网段的规则。例如,本示例队列网段为“10.0.0
RDS表有自增主键时怎样在DLI插入数据? 在DLI中创建关联RDS表时,如果RDS表包含自增主键或其他自动填充字段,您在DLI中插入数据时可以采取以下措施: 插入数据时省略自增字段:在DLI中插入数据时,对于自增主键字段或其他自动填充的字段,您可以在插入语句中省略这些字段。数据
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS等服务时,网络互通需满足如下条件: i. CDM集群与
功能描述 使用DataSource语法创建DLI表。DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 注意事项 CTAS建表语句不能指定表的属性。 若没有指定分隔符,则默认为逗号(,)。 关于分区表的使用说明:
本节介绍使用DataSource语法创建OBS表。 DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,T
使用Hive语法创建OBS表 功能描述 使用Hive语法创建OBS表。DataSource语法和Hive语法主要区别在于支持的表数据存储格式范围、支持的分区数等有差异,详细请参考语法格式和注意事项说明。 推荐使用OBS并行文件系统进行存储。并行文件系统是一种高性能文件系统,提供毫秒级别访问时延,T
< 100。 fetchsize 读取数据时,每一批次获取数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。 batchsize 写入数据时,每一批次写入数据的记录数,默认值1000。设置越大性能越好,但占用内存越多,该值设置过大会有内存溢出的风险。
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 暂不支持通过python写UDF、UDTF、UDAF自定义函数。
增强型跨源创建后状态为“已激活”,但不能说明队列和数据源已连通。建议前往队列管理页面测试数据源网络是否打通。操作步骤如下: 在队列管理页面选择队列。 单击“操作”列中的“更多 > 测试地址连通性”。 输入数据源的“IP:端口”测试网络连通性。 在增强型跨源连接的详情页可以查看对等连接的相关信息。 对等连
资源配置” 查看作业的CU数量,即作业占用资源总CUs数。 该CUs数可以编辑作业页面进行配置,CUs数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CUs数。 图1 查看Flink作业所需CUs数 Spark作业: 登录DLI管理管理控制台。 选择“作业管理
SQL作业执行完成后,修改表名导致datasize不正确怎么办? 在执行SQL作业后立即修改表名,可能会导致表的数据大小结果不正确。 这是因为DLI在执行SQL作业时,会对表进行元数据更新,如果在作业执行完成前修改了表名,会和作业的元数据更新过程冲突,从而影响对数据大小的判断。
修改已存在的分区表或非分区表的生命周期。 当第一次开启生命周期时,会扫描表/分区会扫描路径下的表数据文件,更新表/分区的LAST_ACCESS_TIME,耗时与分区数和文件数相关。 约束限制 表生命周期处于公测阶段,如果有需要请联系客服申请开通白名单。 表生命周期功能支持Hive、DataSource语法
d1 user3 3000 0.6 d2 user4 4000 0.8 d2 user5 5000 1.0 按部⻔分组统计⼩于等于当前薪⽔的⼈数的⽐例 select dept, userid, sal, cume_dist() over (partition by dept
在队列监控页面,分别查看以下指标查看当前队列的作业运行情况。 “提交中作业数”:展示当前队列中状态为“提交中”的作业数量。 “运行中作业数”:展示当前队列中状态为“运行中”的作业数量。 “已完成作业数”:展示当前队列中状态为“已成功”的作业数量。 图1 查看队列监控指标 父主题:
管理Jar作业程序包 程序包管理概述 创建DLI程序包 配置DLI程序包权限 修改DLI程序包所有者 DLI程序包标签管理 DLI内置依赖包 父主题: DLI常用管理操作