检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ion文档。 系统响应 Table创建成功,创建的Hudi表可以进入DLI控制台,在左侧菜单栏选择”数据管理”->”库表管理”,随后筛选数据库并点击名称,进入表列表查询。 父主题: Hudi DDL语法说明
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
Integer 当前作业返回的结果总条数或insert作业插入的总条数。 database_name String 记录其操作的表所在的数据库名称。类型为IMPORT、EXPORT和QUERY的作业才有“database_name”属性。 table_name String 记录
单击“确定”,完成创建程序包。 创建UDAF函数。 登录登录DLI管理控制台,创建SQL队列和数据库。 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。 在SQL编辑区域输入下列命令创建UDAF函数,单击“执行”提交创建。 如果该客户
precombine字段值可以保证数据的准确性,老数据不会覆盖新数据,也就是幂等写入能力。该字段可用选择的类型包括:业务表中更新时间戳、数据库的提交时间戳等。precombine字段不能有null值和空值,可以参考以下示例设置precombine字段: SparkSQL: //通
创建DLI的UDTF函数。 登录DLI管理控制台,单击“SQL编辑器”,执行引擎选择“spark”,选择已创建的SQL队列和数据库。 图12 选择队列和数据库 在SQL编辑区域输入实际上传Jar包的路径创建UDTF函数,单击“执行”提交创建。 CREATE FUNCTION mytestsplit
是 String 导入或导出的数据类型(当前支持csv和json格式)。 database_name 是 String 导入或导出表所属的数据库名称。 table_name 是 String 导入或导出表的名称。 with_column_header 否 Boolean 导入作业时,导入的数据是否包括列名。
每次写入请求缓存行的最大值。 它能提升写入HBase数据库的性能,但是也可能增加延迟。 设置为 "0" 关闭此选项。 sink.buffer-flush.max-rows 否 1000 Integer 每次写入请求缓存的最大行数。 它能提升写入HBase数据库的性能,但是也可能增加延迟。 设置为
怎样修改DLI上已经创建好的表的字段名称? DLI本身不支持直接修改表的字段名称,但您可以通过以下步骤来解决这个问题表数据迁移的方式来解决该问题: 创建新表:创建一个新表,并定义新的表字段名称。 迁移数据:使用INSERT INTO ... SELECT语句将旧表的数据迁移到新表中。
仅支持获取AK、SK、SecurityToken。 获取到AK、SK、SecurityToken后,请参考如何使用凭据管理服务替换硬编码的数据库账号密码查询凭据。 约束限制 仅支持Spark3.3.1版本(Spark通用队列场景)使用委托授权访问临时凭证: 在创建作业时,请配置作业使用Spark3
project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 数据库名称。 table_name 是 String 表名称。 表2 query参数 参数名称 是否必选 参数类型 说明 limit 否 Integer
dli_elastic_resource_pool:弹性资源池 dli_enhanced_datasource:增强型跨源连接 dli_database:数据库 dli_package_resource:资源包(不支持指定有Module ID的内置资源包) dli_flink_job:Flink作业
表2配置参数。JDBC配置对象,除了在url中以分号间隔设置配置项外,还可以通过Info对象动态设置属性项,具体属性项参见表3。 表2 数据库连接参数 参数 描述 url url的格式如下。 jdbc:dli://<endPoint>/projectId? <key1>=<val1>;<key2>=<val2>…
集合函数 函数说明 表1 集合函数说明 集合函数 函数说明 CARDINALITY(array) 返回数组中元素个数 array ‘[’ integer ‘]’ 返回数组索引为integer的元素。索引从1开始 ELEMENT(array) 返回数组中的唯一元素。 若数组为空,则返回null
小文件过多:当一个表中的小文件过多时,可能会造成Driver内存FullGC。 登录DLI控制台,选择SQL编辑器,在SQL编辑器页面选择问题作业的队列和数据库。 执行以下语句,查看作业中表的文件数量。“表名”替换为具体问题作业中的表名称。 select count(distinct fn) FROM
数学函数概览 DLI所支持的数学函数如数学函数所示。 表1 数学函数 函数 命令格式 返回值 功能简介 abs abs(DOUBLE a) DOUBLE或INT 取绝对值。 acos acos(DOUBLE a) DOUBLE 返回给定角度a的反余弦值。 asin asin(DOUBLE
project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 待描述的表所在的数据库名称。 table_name 是 String 待描述表的名称。 请求消息 无请求参数。 响应消息 表2 响应参数 参数名称 是否必选 参数类型
0/{project_id}/streaming/flink-jobs {project_id}信息请从获取项目ID获取。 请求参数说明详情,请参见创建数据库(废弃)。 请求示例 描述:在项目ID为48cc2c48765f481480c7db940d6409d1项目下,创建Flink自定义作业。
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 暂不支持通过python写UDF、UDTF、UDAF自定义函数。
数据相关 导入数据 插入数据 清空数据