检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所示,查看到一个stage运行时间超过
DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败怎么办? 问题现象 DLI分区内表导入了CSV文件数据,导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段,导致查询不到表数据。 问题根因 DLI分区内表在导入数据时,如果文件数据没
SQL作业存在join小表操作时,会触发自动广播所有executor,使得join快速完成。但同时该操作会增加executor的内存消耗,如果executor内存不够时,导致作业运行失败。 解决措施 排查执行的SQL中是否有使用“/*+ BROADCAST(u) */”强制做broadcastjoin。如果有,则需要去掉该标识。
窗口去重 功能描述 窗口去重是一种特殊的去重,它根据指定的多个列来删除重复的行,保留每个窗口和分区键的第一个或最后一个数据。 对于流式查询,与普通去重不同,窗口去重只在窗口的最后返回结果数据,不会产生中间结果。它会清除不需要的中间状态。 因此,窗口去重查询在用户不需要更新结果时,
project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 batch_id 是 String 批处理作业的ID。具体为创建批处理作业中获取的作业ID。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选 参数类型 说明 msg 否 String
是 批处理作业的ID。 请求消息 无请求参数。 响应消息 表2 响应参数说明 参数名称 是否必选 参数类型 说明 id 否 String 批处理作业的ID,采用UUID(通用唯一识别码)格式。 state 否 String 批处理作业的状态,请参见创建批处理作业中的表7。 请求示例
删除经典型跨源连接 功能介绍 该API用于删除已创建的经典型跨源连接。创建中的连接,无法删除。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式 DELETE /v2.0/{project_id}/datasource-con
删除增强型跨源连接 功能介绍 该API用于删除已创建的增强型跨源连接。 创建中的连接,无法删除。 调试 您可以在API Explorer中调试该接口。 URI URI格式 DELETE /v2.0/{project_id}/datasource/enhanced-connections/{connection_id}
15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 数据类型的使用,请参考Format章节。 Hive 方言支持的 DDL 语句,Flink 1.15 当前仅支持使用Hive语法创建OBS表和使用hive语法的DLI Lakehouse表。 使用Hive语法创建OBS表
参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
TypeSerializer 序列化的字节序列。 示例 使用kafka发送数据,输出到print中。 根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性(通用队列 > 找到作业的所属队列 >
是 String Flink作业的作业ID。 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 job_id 是 Long Flink作业的ID。 savepoint_path
Connector允许接收所有输入记录,常用于高性能测试和UDF 输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是系统问题还是结果表WITH参数错误,您可以将WITH参数修改为'connector'
请求参数 参数名称 是否必选 参数类型 说明 sql 是 String 待执行的SQL语句。 currentdb 否 String SQL语句执行所在的数据库。 说明: 在SQL里面已经包含db_name的情况下可以不选该参数,例如SQL为:select * from db1.t1。
connection_id 是 String 连接ID,用于标识跨源连接的UUID。 请求消息 表2 请求参数 参数名称 是否必选 参数类型 说明 queues 否 Array of String 需要使用跨源的队列名列表。 elastic_resource_pools 否 Array
项目编号,用于资源隔离。获取方式请参考获取项目ID。 queue_name 是 String 待删除定时扩缩计划的队列名称。名称长度为1~128个字符,多个队列名称使用逗号“,”分隔。 plan_id 是 Long 待删除的队列扩缩容计划的ID。具体获取请参考查看队列定时扩缩容计划(废弃)。 请求消息 无请求参数。
查询指定资源类型的标签信息 功能介绍 该接口用于查询指定资源类型的标签信息,即指定项目中资源类型的所有资源标签集合。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET
参考增强型跨源连接,在DLI上根据MySQL和Kafka所在的虚拟私有云和子网分别创建相应的增强型跨源连接,并绑定所要使用的Flink弹性资源池。 设置MySQL和Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据MySQL和Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。
取消作业(推荐) 功能介绍 该API用于取消已经提交的作业,若作业已经执行结束或失败则无法取消。 调试 您可以在API Explorer中调试该接口。 URI URI格式: DELETE /v1.0/{project_id}/jobs/{job_id} 参数说明 表1 URI 参数
project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 queue_name 是 String 指定删除的队列名称。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选 参数类型 说明 is_success 否 Boolean