检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
false 当前配置设置为“false”时,DLI在覆盖写之前,会删除所有符合条件的分区。例如,分区表中有一个“2021-01”的分区,当使用INSERT OVERWRITE语句向表中写入“2021-02”这个分区的数据时,会把“2021-01”的分区数据也覆盖掉。 当前配置设置为“tru
默认值:false nullValue 否 设置代表null的字符,例如,nullValue="nl"表示设置nl代表null。 comment 否 设置代表注释开头的字符,例如,comment='#'表示以#开头的行为注释。 compression 否 设置数据的压缩格式。目前支持gzip
ZE时,该参数可以设置保留多少字节大小的归档文件,默认值5368709120字节(5G)。 hoodie.archive.file.cleaner.days.retained 当清理策略为KEEP_ARCHIVED_FILES_BY_DAYS时,该参数可以设置保留多少天以内的归档文件,默认值30(天)。
query的运行得到错误的结果或者非预期的异常。 解决方案:将作业参数 table.exec.source.cdc-events-duplicate 设置成true,并在该source上定义PRIMARY KEY。 框架会生成一个额外的有状态算子,使用该primary key来对变更事件去重
该场景作业需要运行在DLI的独享队列上,因此要与云搜索服务建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 注意事项 当前只支持CSS集群7
Executor CPU核数 用于设置Spark作业申请的每个Executor的CPU核数,决定每个Executor并行执行Task的能力。 Executor个数 用于设置Spark作业申请的Executor的数量。 driver CPU核数 用于设置driver CPU核数。 driver内存
表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 语法格式 该语法在表级别禁止或恢复表的生命周期 1 ALTER TABLE table_name
优先级 当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
际所需设置相应安全组规则。 若使用MRS HBase,请在增强型跨源的主机信息中添加MRS集群所有节点的主机ip信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规
在“程序包管理”页面,单击右上角的“创建”创建程序包。 在“创建程序包”对话框,配置以下参数。 包类型:选择“JAR”。 OBS路径:程序包所在的OBS路径。 分组设置和组名称根据情况选择设置,方便后续识别和管理程序包。 单击“确定”,完成创建程序包。 创建UDAF函数。 登录登录DLI管理控制台,创建SQL队列和数据库。
表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 语法格式 ALTER TABLE table_name SET TBLPROPERTIES("dli
管理单元 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 作业中每个算子的最大并行数。 说明: 并行数不能大于计算单元(CU数量-管理单元CU数量)的4倍。 并行数最好大于用户作业里设置的并发数,否则有可能提交失败。 TaskManager配置 用于设置TaskManager资源参数。
3及以上版本支持使用Hive语法的CTAS语句创建分区表。 关于创建表时设置多字符的分隔符: 只有指定ROW FORMAT SERDE为org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe时,字段分隔符才支持设置为多字符。 只有Hive OBS表支持在建表时指定多字符的分隔符,Hive
如果您持有多个到期日不同的资源,或者您的队列资源到期日不同,可以将到期日统一设置到一个日期,便于日常管理和续费。 图4展示了用户将两个不同时间到期的资源,同时续费一个月,并设置“统一到期日”后的效果对比。 图4 统一到期日 更多关于统一到期日的规则请参见如何设置统一到期日。 父主题: 续费
具体可以按照下面的计算公式来保留2个小时的历史版本数据: 版本数设置为3600*2/版本interval时间,版本interval时间来自于flink作业的checkpoint周期,或者上游批量写入的周期。 COW表如果业务没有历史版本数据保留的特殊要求,保留版本数设置为1。 COW表的每个版本都是表的全量
优先级 当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
TUMBLE窗口结束之前,可以根据设置的触发频率周期性地触发窗口,输出从窗口开始时间到当前周期时间窗口内的计算结果值,但不影响最终窗口输出值,从而在窗口结束前的每个周期都可以看到最新的结果。 提高数据的精确性 在窗口结束后,允许设置延迟时间。根据设置的延迟时间,每到达一个迟到数据,则更新窗口的输出结果
TUMBLE窗口结束之前,可以根据设置的触发频率周期性地触发窗口,输出从窗口开始时间到当前周期时间窗口内的计算结果值,但不影响最终窗口输出值,从而在窗口结束前的每个周期都可以看到最新的结果。 提高数据的精确性 在窗口结束后,允许设置延迟时间。根据设置的延迟时间,每到达一个迟到数据,则更新窗口的输出结果
表管理”。 单击需要设置权限的表所在的数据库名,进入该数据库的“表管理”页面。 单击所选表“操作”栏中的“权限管理”,将显示该表对应的权限信息。 单击表权限管理页面右上角的“授权”按钮。 在弹出的“授权”对话框中选择相应的权限。 单击“确定”,完成表权限设置。 父主题: DLI数据库和表类
服务以您的身份访问DEW服务。 图1 DLI云服务委托 DLI委托 在使用DLI前,为了确保正常使用DLI的功能,建议先进行DLI委托权限设置。 DLI默认提供以下类型的委托:dli_admin_agency、dli_management_agency、dli_data_clea