检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flink SQL作业类 怎样将OBS表映射为DLI的分区表? Flink SQL作业Kafka分区数增加或减少,怎样不停止Flink作业实现动态感知? 在Flink SQL作业中创建表使用EL表达式,作业运行提示DLI.0005错误怎么办? Flink作业输出流写入数据到OBS
已创建对应的外部数据源集群。具体对接的外部数据源根据业务自行选择。 表1 创建各外部数据源参考 服务名 参考文档链接 RDS 购买RDS for MySQL实例 DWS 创建DWS集群 DMS Kafka 创建Kafka实例 注意: 创建DMS Kafka实例时,不能开启Kafka SASL_SSL。
配置SQL防御规则 什么是SQL防御 大数据领域的SQL引擎层出不穷,在带给解决方案多样性的同时,也暴露出一定的问题,例如SQL输入语句质量良莠不齐、SQL问题难定位、大SQL语句消耗资源过多等。 低质量的SQL会对数据分析平台系统带来不可预料的冲击,影响系统的性能或者平台稳定性。
对跨源DWS表执行insert overwrite操作,报错:org.postgresql.util.PSQLException: ERROR: tuple concurrently updated 问题现象 客户对DWS执行并发insert overwrite操作,报错:org
高级选项:选择“自定义”。 网段:配置队列网段。例如,当前配置为10.0.0.0/16。 队列的网段不能和DMS Kafka、RDS MySQL实例的子网网段有重合,否则后续创建跨源连接会失败。 其他参数根据需要选择和配置。 参数配置完成后,单击“立即购买”,确认配置信息无误后,单击“提交”完成队列创建。
自动续费 自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致资源被自动删除。自动续费的规则如下所述: 以资源的到期日计算第一次自动续费日期和计费周期。 您可以在购买资源时开通自动续费,在购买资源时,自动续费周期以实际选择的续费时长为准。 在到期前均可开通自动续费,到期前
高级选项:选择“自定义”。 网段:配置队列网段。例如,当前配置为10.0.0.0/16。 队列的网段不能和DMS Kafka、RDS MySQL实例的子网网段有重合,否则后续创建跨源连接会失败。 其他参数根据需要选择和配置。 参数配置完成后,单击“立即购买”,确认配置信息无误后,单击“提交”完成队列创建。
窗口 GROUP WINDOW 语法说明 Group Window定义在GROUP BY里,每个分组只输出一条记录,包括以下几种: 分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。
使用SQL作业模板开发并提交SQL作业 为了便捷快速地执行SQL操作,DLI支持定制模板或将正在使用的SQL语句保存为模板。保存模板后,不需编写SQL语句,可通过模板直接执行SQL操作。 当前系统提供了多条标准的TPC-H查询语句模板,您可以按需选择自定义模板或系统模板创建SQL作业。
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所
Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异对比 DLI整理了Spark 2.4.x与Spark 3.3.x版本在SQL队列的差异,便于您了解Spark版本升级后SQL队列上运行的作业在适配新版本引擎时的影响。 histogram_numeric函数的返回值的类型不同
datasource.hbase CloudTable/MRS OpenTSDB: sys.datasource.opentsdb RDS MySQL: sys.datasource.rds RDS PostGre: 不需要选 DWS: 不需要选 CSS: sys.datasource
DLI弹性资源池与队列简介 DLI的计算资源是执行作业的基础,本节内容介绍DLI计算资源的模式和队列类型。 什么是弹性资源池和队列? 在了解DLI计算资源模式前首先了解弹性资源池和队列的基本概念。 弹性资源池是DLI计算资源的一种池化管理模式,可以看做DLI计算资源的集合。DLI
管理SQL作业 在SQL作业列表页面查看作业的基本信息 DLI SQL作业管理页面显示所有SQL作业,作业数量较多时,系统分页显示,可根据需要跳转至指定页面。您可以查看任何状态下的作业。作业列表默认按创建时间降序排列。 表1 作业管理参数 参数 参数说明 队列 作业所属队列的名称。
Flink作业推荐配置指导 用户在创建Flink作业时,可以通过如下配置实现流应用的高可靠性能。 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,单击链接确认订阅即可。 图1 创建主题 图2
Flink作业常用操作 用户创建了新作业后,需要根据用户的实际需求对作业进行操作,包括编辑作业基本信息,启停作业、导入/导出作业等。 编辑作业 用户可以对已经创建的作业进行编辑,如修改SQL语句、作业名称和描述、作业配置信息等。 在DLI管理控制台的左侧导航栏中,单击“作业管理”
高级选项:选择“自定义”。 网段:配置队列网段。例如,当前配置为10.0.0.0/16。 队列的网段不能和DMS Kafka、RDS MySQL实例的子网网段有重合,否则后续创建跨源连接会失败。 其他参数根据需要选择和配置。 参数配置完成后,单击“立即购买”,确认配置信息无误后,单击“提交”完成队列创建。
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。
导出SQL作业结果 导出作业结果是将SQL作业分析后的数据结果按指定格式存储到指定位置。 DLI默认将SQL作业结果存储在DLI作业桶中。同时也支持下载作业结果到本地或导出作业结果到指定的OBS桶。 导出作业结果到DLI作业桶 DLI在指定了一个默认的OBS桶作为作业结果的存储位置,请在DLI管理控制台的“全局配置
在Spark SQL作业中使用UDTF 操作场景 DLI支持用户使用Hive UDTF(User-Defined Table-Generating Functions)自定义表值函数,UDTF用于解决一进多出业务场景,即其输入与输出是一对多的关系,读入一行数据,输出多个值。 约束限制