检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。
执行Clustering:使用执行策略处理计划以创建新文件并替换旧文件。 读取Clustering计划,并获得ClusteringGroups,其标记了需要进行Clustering的文件组。 对于每个组使用strategyParams实例化适当的策略类(例如:sortColumns),然后应用该策略重写数据。
string1 匹配 string2 返回 TRUE; 如果 string1 或 string2 为 NULL 返回 UNKNOWN。 如果需要可以定义转义字符。尚不支持转义字符。 string1 NOT LIKE string2 [ ESCAPE char ] BOOLEAN 如果
”。其他参数保持默认值或根据需要选择。 创建OBS桶时,需要选择与DLI管理控制台相同的区域,不可跨区域执行操作。 单击“立即创建”。 单击所建桶“dli-test-obs01”,进入“对象”页面。 选择左侧列表中的“对象”,选择“上传对象”,将需要上传的文件,例如“spark-examples
队列监控 > 队列CU使用量” 。 计算剩余CU量。 队列剩余CU量=队列CU量 - 队列CU使用量。 当队列剩余CU量小于用户提交的CU量,则需要等待资源,才能提交成功。 父主题: Spark作业开发类
已创建跨源连接的DLI表名称。 DLI_TEST 为包含待查询数据的表。 field1,field2...,field 表“DLI_TEST”中的列值,需要匹配表“DLI_TABLE”的列值和类型。 where_condition 查询过滤条件。 num 对查询结果进行限制,num参数仅支持INT类型。
是纯数字,且不能以数字和下划线开头。 table_name 表名称。 obs桶多版本回收站目录 当前OBS表所在桶下的一个目录,您可以根据需要调整目录路径。比如当前OBS表所在路径为“obs://bucketName/filePath”,OBS表目录下已创建Trash目录,则该回
A, string B) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 A、B 是 STRING 计算Levenshtein距离需要输入的字符串。 返回值说明 返回INT类型的值。 示例代码 返回3 SELECT levenshtein('kitten','sitting');
driver 否 连接数据库所需要的驱动。若未配置,则会自动通过URL提取 connector.username 否 数据库认证用户名,需要和'connector.password'一起配置 connector.password 否 数据库认证密码,需要和'connector.username'一起配置
参数说明 表1 参数说明 参数 是否必选 参数类型 说明 colname 是 DOUBLE、DECIMAL、STRING、BIGINT类型。 代表需要排序的列名。 列中元素为DOUBLE类型。 当列中元素非DOUBLE类型时,会隐式转换为DOUBLE类型后参与运算。 返回值说明 返回DOUBLE或DECIMAL类型。
checkpoint为true,与checkpoint-app-name需要同时配置。 connector. checkpoint-app-name 否 DIS服务的消费者标识,当不同作业消费相同通道时,需要区分不同的消费者标识,以免checkpoint混淆。 勿与offset或
time。 为了避免数据丢失或者数据被覆盖,开启作业异常自动重启,需要配置为“从checkpoint恢复”。 checkpoint间隔设置需在输出文件实时性、文件大小和恢复时长之间进行权衡,比如10分钟。 使用HDFS时需要绑定相应的跨源,并填写相应的主机信息。 使用hdfs时,请配置主NameNode的所在节点信息。
创建的Kafka_SSL类型的跨源认证名称。Kafka配置SSL时使用该配置。 如果仅使用SSL类型,则需要同时配置以下参数: 'properties.security.protocol '= 'SSL'; 如果使用SASL_SSL类型,则需要同时配置以下参数: 'properties.security.protocol'
当子查询中数据不重复的情况下,执行关联子查询,不需要对子查询的结果去重。 当子查询中数据重复的情况下,执行关联子查询,会提示异常,必须对子查询的结果做去重处理,比如max(),min()。 该参数设置为false: 不管子查询中数据重复与否,执行关联子查询时,都需要对子查询的结果去重,比如max()
call show_invalid_parquet(path => 'path') 参数描述 表1 参数描述 参数 描述 是否必填 path 需要查询的FS路径 是 示例 call show_invalid_parquet(path => 'obs://path/hudi_table/dt=2021-08-28');
date)、dayofmonth(string date) 参数说明 表1 参数说明 参数 是否必选 参数类型 说明 date 是 DATE 或 STRING 代表需要处理的日期。 格式为: yyyy-mm-dd yyyy-mm-dd hh:mi:ss yyyy-mm-dd hh:mi:ss.ff3 返回值说明
show_hoodie_properties(table => '[table_name]'); 参数描述 表1 参数描述 参数 描述 table_name 需要查询的表的表名,支持database.tablename格式 示例 call show_hoodie_properties(table =>
据丢失。 执行run compaction命令时,禁止将hoodie.run.compact.only.inline设置成false,该值需要设置成true。 错误示例: 配置参数 hoodie.run.compact.only.inline=false 随后执行SQL run compaction
DROP TABLE参数描述 参数 描述 db_name Database名称。如果未指定,将选择当前database。 table_name 需要删除的Table名称。 所需权限 SQL权限 表2 DROP TABLE所需权限列表 权限描述 表所在数据库的DROP_TABLE权限 细
当前仅支持包年包月计费模式的弹性资源池进行规格(包周期CU)变更。 弹性资源池扩容 在DLI管理控制台左侧,选择“资源管理 > 弹性资源池”。 选择需要扩容的弹性资源池,单击“操作”列“更多”中的“包周期CU变更”。 在“包周期CU变更”页面,“变更方式”选择“扩容”,变更数量选择要扩容的CU数量。