检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
及时对Hudi表进行Compaction,防止Hudi source算子checkpoint完成时间过长 当Hudi Source算子checkpoint完成时间长时,检查该Hudi表Compaction是否正常。因为当长时间不做Compaction时list性能会变差。 流读Hudi MOR表时,建议开启log
存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI
作业的名称。 作业异常告警 设置是否将作业异常告警信息,如作业出现运行异常或者欠费情况,以SMN的方式通知用户。 勾选后需配置下列参数: “SMN主题”: 选择一个自定义的SMN主题。如何自定义SMN主题,请参见《消息通知服务用户指南》中“创建主题”章节。 异常自动重启 设置是否启动异常自动
with-detail 否 是否获取表的详细信息(所有者,size等)。 请求消息 无请求参数。 响应消息 表2 响应参数 参数 是否必选 参数类型 说明 is_success 是 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 是 String 系统提示信息,执行成功时,信息可能为空。
描述 limit 否 Integer 每页显示条数,默认为1000。 offset 否 Integer 查询结果偏移量,默认为0。 请求参数 表3 请求Body参数 参数 是否必选 参数类型 描述 without_any_tag 否 Boolean 是否不包含任意一个标签。默认值false。
查询结果偏移量,默认为0(连接以创建时间进行排序)。 auth_info_name 是 String 认证信息名,同一个project下唯一。 请求参数 无 响应参数 表3 响应参数 参数 参数类型 说明 is_success Boolean 请求执行是否成功。“true”表示请求执行成功。 message
cluster_name 是 集群名称。 请求消息 无请求参数。 响应消息 返回码 成功返回200。 响应参数 响应参数如表2所示。 表2 响应参数说明 参数 是否必选 参数类型 说明 create_time 是 Long 创建集群的时间。是单位为“毫秒”的时间戳。 description 否
String 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 job 否 Object 作业更新信息。具体请参考表4。 表4 job参数说明 参数名称 是否必选 参数类型 说明 update_time 否 Long 作业更新时间,毫秒数。 请求示例
分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所示,查看到一个stage运行时间超过20分钟且只剩余一个task在运行,即为数据倾斜的情况。 图1 数据倾斜样例 常见数据倾斜场景
/v3/{project_id}/elastic-resource-pools {project_id}信息请从获取项目ID获取。 请求参数说明详情,请参见创建弹性资源池。 请求示例 描述:在项目ID为48cc2c48765f481480c7db940d6409d1的项目下创建一个名称为elastic_pool_dli的弹性资源池。
该参数用于配置服务器端是否使用加密来与客户端通信。当设置为true时,服务器将要求所有客户端使用加密连接,这可以提高通信的安全性。 true spark.authenticate 该参数用于配置是否对Spark应用程序的组件进行身份验证。启用身份验证可以防止未授权的访问。这个参数可以设置为true来启用身份验证。 true
/v3/{project_id}/elastic-resource-pools {project_id}信息请从获取项目ID获取。 请求参数说明详情,请参见创建弹性资源池。 请求示例 描述:在项目ID为48cc2c48765f481480c7db940d6409d1的项目下创建一个名称为elastic_pool_dli的弹性资源池。
查询结果偏移量,默认为0(连接以创建时间进行排序)。 auth_info_name 是 String 认证信息名,同一个project下唯一。 请求参数 无 响应参数 表3 响应参数 参数 参数类型 说明 is_success Boolean 请求执行是否成功。“true”表示请求执行成功。 message
优点:读取时,只读取对应分区的一个数据文件即可,较为高效。 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时。且由于耗时,读请求读取到的数据相对就会滞后。 Merge On Read 读时合并表也简称MOR表,使用列格式parquet和行格式Avro两种方式混合存储
响应参数说明 参数名称 是否必选 参数类型 说明 is_success 否 Boolean 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 请求示例 上报IEF系统事件,事件类型deployment、事件操作类型updated。 {
et/Orc格式的OBS表对应的文件压缩率较高,超过了5倍的压缩率,您可以通过调整配置来优化作业的性能。 具体方法:在submit-job请求体conf字段中配置“dli.sql.files.maxPartitionBytes=33554432”。 该配置项默认值为128MB,将
String 执行请求是否成功。“true”表示请求执行成功。 message 否 String 消息内容。 job 否 object 作业更新信息。具体请参考表4。 表4 job参数说明 参数名称 是否必选 参数类型 说明 update_time 否 Long 作业更新时间,单位为毫秒。
tableIndentifier 需要执行INSERT命令的Hudi表的名称。 select query 查询语句。 注意事项 写入模式:Hudi对于设置了主键的表支持三种写入模式,用户可以设置参数hoodie.sql.insert.mode来指定Insert模式,默认为upsert。 hoodie.sql.insert
println(table); } } 查询表的分区信息(包含分区的创建和修改时间) DLI提供查询表分区信息的接口。您可以使用该接口查询数据库下表的分区信息(包括分区的创建和修改时间)。示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 private
start_time用于查询扩缩容历史的开始时间,该时间点需大于当前时间点减30天,必须小于end_time 。时间格式为unix时间戳,单位:毫秒。 若start_time为空,则查询end_time前七天到end_time的数据(end_time最大不能大于当前时间30天)。 查询当前时间点前15天到当前