检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
详细的DLI创建数据库的语法可以参考创建DLI数据库。 create database testdb; 后续章节操作都需要在testdb数据库下进行操作。 DataSource和Hive两种语法创建OBS表的区别 DataSource语法和Hive语法主要区别在于支持的表数据存
it相关的执行脚本、配置文件和依赖包。 进入配置文件conf目录,修改“client.properties”中的配置项,(具体配置项参考表1)。 表1 DLI 客户端工具配置参数 属性项 必须配置 默认值 描述 dliEndPont 否 - DLI服务的域名。 在地区和终端节点获取DLI对应区域的域名。
Hive 元数据的详细信息。详情参考:Apache Flink Hive Catalog HiveCatalog可以用来处理两种类型的表:Hive兼容表和通用表。 Hive兼容表是以Hive兼容的方式存储的,他们的元数据和实际的数据都在分层存储中。因此,通过flink创建的与hive兼容的表,可以通过hive查询。
DLI作业要由用户主账户统一设置及修改,子用户无权限。 不配置DLI作业桶无法查看作业日志。 您可以通过配置桶的生命周期规则,定时删除桶中的对象或者定时转换对象的存储类别。 DLI的作业桶设置后请谨慎修改,否则可能会造成历史数据无法查找。 前提条件 配置前,请先购买OBS桶或并行文件系统。大数据
endpoint指DLI的域名。projectId指项目ID。 在地区和终端节点获取DLI对应的Endpoint,从华为云“用户名”>“我的凭证”页面获取项目编号。 “?”后面接其他配置项,每个配置项以“key=value”的形式列出,配置项之间以“;”隔开,这些配置项也可以通过Info对象传入。
请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列,使用DLI的队列资源时,按照队列CU时进行计费。
SDK功能矩阵 SDK开发指南指导您如何安装和配置开发环境、如何通过调用DLI SDK提供的接口函数进行二次开发。 Java、Python SDK功能矩阵请参见表1 表1 SDK功能矩阵 语言 功能 内容 Java OBS授权 介绍将OBS桶的操作权限授权给DLI的Java SDK使用说明。 队列相关
如果SQL查询中包含大量的嵌套left join操作,并且表有大量的动态分区时,这可能会导致在数据解析时消耗大量的内存资源,导致Driver节点的内存不足,并触发频繁的Full GC。 在这种情况下,可以配置该参数为false即禁用动态分区修剪优化,有助于减少内存使用,避免内存溢出和频繁的Full
properties.* 否 无 String 设置和传递任意 Kafka 的配置项。 “properties.”中的后缀名必须匹配在Apache Kafka中定义的配置键。 Flink 将移除 "properties." 配置键前缀并将变换后的配置键和值传入底层的 Kafka 客户端。例如,您可以通过
根据kafka所在的虚拟私有云和子网创建相应的跨源,并绑定所要使用的队列。然后设置安全组,入向规则,使其对当前将要使用的队列放开,并根据kafka的地址测试队列连通性(通用队列 > 找到作业的所属队列 > 更多 > 测试地址连通性 > 输入kafka的地址 > 测试)。如果能
项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 被查询的表所在的数据库名称。 table_name 是 String 被查询的表名称。 user_name 是 String 被查询的用户名称。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
Studio执行DLI作业的job id。 图1 查看日志 图2 查找job id 在DLI控制台,选择“作业管理”>“SQL作业”。 在SQL作业管理页面,输入对应的job id,找到对应的作业。 在“操作”列中,单击“更多”>“归档日志”>“下载日志到本地”。 图3 归档日志 在所下载的日志中搜
分组函数 在流处理表中的 SQL 查询中,分组窗口函数的 time_attr 参数必须引用一个合法的时间属性,且该属性需要指定行的处理时间或事件时间。 对于批处理的 SQL 查询,分组窗口函数的 time_attr 参数必须是一个 TIMESTAMP 类型的属性。 表1 分组函数表
单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表4 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。 dli_queue_01 类型 选择创建的队列类型。
Flink作业高可靠推荐配置指导(异常自动重启) 操作场景 本节操作介绍创建Flink作业时,配置流应用实现高可靠性能的操作方法。 操作步骤 用户在消息通知服务(SMN)中提前创建一个“主题”,并将其指定的邮箱或者手机号添加至主题订阅中。此时指定的邮箱或者手机会收到请求订阅的通知,单击链接确认订阅即可。
554432”。 该配置项默认值为128MB,将其配置成32MB,可以减少单个任务读取的数据量,避免因过高的压缩比,导致解压后单个任务处理的数据量过大。 但调整这个参数可能会影响到作业的执行效率和资源消耗,因此在做调整时需要根据实际的数据量和压缩率来选择适合的参数值。 父主题: DLI数据库和表类
OpenTSDB是基于HBase分布式的 ,可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。 DLI可以通过
OpenTSDB是基于HBase分布式的 ,可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性,可用于系统监控和测量、物联网数据、金融数据和科学实验结果数据的收集监控。 DLI可以通过
–-file中提交上来的文件的本地路径,即:SparkFiles.get("上传的文件名")。 Driver中的文件路径与Executor中获取的路径位置是不一致的,所以不能将Driver中获取到的路径作为参数传给Executor去执行。 Executor获取文件路径的时候,仍然需要使用SparkFiles