检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SQL作业中存在join操作,因为自动广播导致内存不足,作业一直运行中 问题现象 SQL作业中存在join操作,作业提交后状态一直是运行中,没有结果返回。 问题根因 Spark SQL作业存在join小表操作时,会触发自动广播所有executor,使得join快速完成。但同时该操
依据的OBS分区表。在TBLPROPERTIES中配置dli.multi.version.enable、comment、orc.compress和auto.purge。 dli.multi.version.enable:本例配置为true,即代表开启DLI数据多版本功能,用于表数据的备份与恢复。
如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证。 跨源认证简介及操作方法请参考跨源认证简介。 注意事项 创建Flink
如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证。 跨源认证简介及操作方法请参考跨源认证简介。 注意事项 创建Flink
窗口去重 功能描述 窗口去重是一种特殊的去重,它根据指定的多个列来删除重复的行,保留每个窗口和分区键的第一个或最后一个数据。 对于流式查询,与普通去重不同,窗口去重只在窗口的最后返回结果数据,不会产生中间结果。它会清除不需要的中间状态。 因此,窗口去重查询在用户不需要更新结果时,
schema-include 否 false Boolean 设置 Debezium Kafka Connect 时,用户可以启用 Kafka 配置 'value.converter.schemas.enable' 以在消息中包含 schema。此选项表明 Debezium JSON 消息是否包含
量和分组持续的时间,持续时间较短的 group 窗口不会产生状态过大的问题。可以提供一个合适的状态 time-to-live (TTL) 配置来防止状态过大。注意:这可能会影响查询结果的正确性。 更多介绍和使用请参考开源社区文档:分组聚合。 DISTINCT 聚合 DISTINCT
Flink作业怎样设置“异常自动重启”? 场景概述 DLI Flink作业具有高可用保障能力,通过设置“异常自动重启”功能,可在周边服务短时故障恢复后自动重启。 操作步骤 登录DLI控制台,选择“作业管理”>“Flink作业”。 在Flink作业编辑页面,勾选“异常自动重启”。例如,图1所示。
更新模板 功能介绍 该API用于对DLI服务中已有的模板进行更新。 调试 您可以在API Explorer中调试该接口。 URI URI格式 PUT /v1.0/{project_id}/streaming/job-templates/{template_id} 参数说明 表1 URI参数说明
在DataArts Studio上运行DLI SQL脚本,执行结果报org.apache.hadoop.fs.obs.OBSIOException错误 问题现象 在DataArts Studio上运行DLI SQL脚本,执行结果的运行日志显示语句执行失败,错误信息为: DLI.0999:
BlackHole结果表 功能描述 BlackHole Connector允许接收所有输入记录,常用于高性能测试和UDF 输出,其不是实质性Sink。Blackhole结果表是系统内置的Connector。 例如,如果您在注册其他类型的Connector结果表时报错,但您不确定是
cross join (笛卡儿积)以致查询失败。 流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置,以防止出现过多的状态。 示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId
cross join (笛卡儿积)以致查询失败。 流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置,以防止出现过多的状态。 示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId
SQL作业运行慢如何定位 作业运行慢可以通过以下步骤进行排查处理。 可能原因1:FullGC原因导致作业运行慢 判断当前作业运行慢是否是FullGC导致: 登录DLI控制台,单击“作业管理 > SQL作业”。 在SQL作业页面,在对应作业的“操作”列,单击“更多 > 归档日志”。
cross join (笛卡儿积)以致查询失败。 流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置,以防止出现过多的状态。 示例 SELECT * FROM Orders INNER JOIN Product ON Orders.productId
新建模板 功能介绍 该API在DLI服务中新建一个用户模板,最多100个。 调试 您可以在API Explorer中调试该接口。 URI URI格式 POST /v1.0/{project_id}/streaming/job-templates 参数说明 表1 URI参数说明 参数名称
怎样获取DLI作业样例(Demo) 为了方便用户更好地使用DLI,DLI服务提供了供作业开发的Demo样例,您可以通过DLI样例代码获取。 该样例代码的目录内容介绍如下: dli-flink-demo:开发Flink作业时的样例代码参考。例如,样例代码实现读取Kafka源表数据写
身份认证与访问控制 身份认证 用户访问DLI的方式主要有两种,包括DLI Console界面、DLI Open API等,其本质都是通过DLI提供的REST API接口进行请求。 DLI的接口均需要通过认证鉴权才能访问,控制台发送的请求与调用API接口的请求均支持Token认证鉴权。
怎样将老版本的Spark队列切换成通用型队列 当前DLI服务包括“SQL队列”和“通用队列”两种队列类型。 其中,“SQL队列”用于运行SQL作业,“通用队列”兼容老版本的Spark队列,用于运行Spark作业和Flink作业。 通过以下步骤,可以将老版本的“Spark队列”转换为新的“通用队列”。
Flink Jar作业访问DWS启动异常,提示客户端连接数太多错误 问题描述 提交Flink Jar作业访问DWS数据仓库服务时,提示启动失败,作业日志报如下错误信息。 FATAL: Already too many clients, active/non-active/reserved: