检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询所有服务的终端节点。 数据湖探索的终端节点如下表所示,请您根据业务需要选择对应区域的终端节点。 表1 数据湖探索的终端节点 区域名称 区域 终端节点(Endpoint) 华北-北京四 cn-north-4 dli
all_match(array(T), function(T, boolean)) → boolean 描述:返回是否数组的所有元素满足给定的断言函数。如果都满足断言函数或者数组为空时,返回true, 如果有一个或者多个元素不满足断言函数,则返回false。当断言函数对于一个或者多个元素的结果是NULL时,返回结果也是NULL:
参数 描述 是否必填 table 需要查询的表的表名,支持database.tablename格式 table,path须选填其中之一 path 需要查询的表的路径 table,path须选填其中之一 predicate 需要定义的谓语句,筛选需要Clustering的分区 否 order
dest_network_id 是 String 对应服务的子网网络ID,即为需要建立连接的服务所在的子网。具体请参考《虚拟私有云API参考》。 elastic_resource_pools 否 Array of Strings 需要使用跨源的弹性资源池列表。 queues 否 Array of
用户还需要拥有作业的删除权限。 创建作业 子用户默认不能创建作业。 创建作业时,用户需要拥有创建作业的权限。目前只有admin用户创建作业的权限,同时用户还需要拥有该作业使用的相关程序包组权限或者程序包权限。 编辑作业 编辑作业时,用户需要拥有更新作业的权限,同时用户还需要拥有该
初始化DLI客户端 使用DLI Python SDK工具访问DLI,需要用户初始化DLI客户端。用户可以使用AK/SK(Access Key ID/Secret Access Key)或Token两种认证方式初始化客户端,示例代码如下。完整样例代码和依赖包说明请参考:Python
路径作为参数传给Executor去执行。 Executor获取文件路径的时候,仍然需要使用SparkFiles.get(“filename”)的方式获取。 SparkFiles.get()方法需要spark初始化以后才能调用。 图1 添加其他依赖文件 代码段如下所示 package
API语法说明 设置写入方式 Hudi通过hoodie.datasource.write.operation参数设置写入模式。 insert: 该操作不需要通过索引去查询具体更新的文件分区,因此它的速度比upsert快。当不包含更新数据时建议使用该操作,如果存在更新数据使用该操作会出现重复数据。
用户访问DLI的方式主要有两种,包括DLI Console界面、DLI Open API等,其本质都是通过DLI提供的REST API接口进行请求。 DLI的接口均需要通过认证鉴权才能访问,控制台发送的请求与调用API接口的请求均支持Token认证鉴权。 访问控制 您可以使用统一身份认证服务(Identity
s步长缩容的要求,如果执行缩容任务,则缩容失败。 弹性扩容 当前队列规格不满足业务需要时,可以通过手动变更队列规格来扩容当前队列。 扩容属于耗时操作,在DLI“弹性扩缩容”页面执行扩容操作后,需要等待大约10分钟,具体时长和扩容的CU值有关,等待一段时间后,可以通过刷新“队列管理
度按订购周期重置。更多套餐包计费信息请参考套餐包计费。 本文将介绍按需计费的DLI弹性资源池的计费规则。 适用场景 包年/包月:该计费模式需要用户预先支付一定时长的费用,适用于长期、稳定的业务需求。 按需计费:按需计费模式的弹性资源池适用于测试项目场景,作业随机性大,数据量小,资
15,Spark计算引擎推荐版本: Spark 3.3.1。 本节操作介绍如何升级作业的引擎版本。 SQL作业: SQL作业不支持配置引擎版本,需要您重新新建队列执行SQL作业,新创建的队列会默认使用新版本的Spark引擎。 Flink OpenSource SQL作业: 登录DLI管理控制台。
当API接口返回的中文字符出现乱码时,通常是因为字符编码格式不匹配。 DLI接口返回的结果编码格式为“UTF-8”,在调用接口获取返回结果时需要对返回的信息编码转换为“UTF-8”。 例如,参考如下实现对返回的response.content内容做编码格式转换,确保返回的中文格式不会乱码。
dli.user.file file 如果是对接notebook工具场景时不需要设置。 spark.dli.user.className class_name 如果是对接notebook工具场景时不需要设置。 spark.dli.user.scType sc_type 推荐使用livy原生配置。
初始化DLI客户端 使用DLI SDK工具访问DLI,需要用户初始化DLI客户端。用户可以使用AK/SK(Access Key ID/Secret Access Key)或Token两种认证方式初始化客户端,示例代码如下: 前提条件 已参考Java SDK概述配置Java SDK环境。
是否仅通过域名访问es节点,默认为false。使用经典型跨源的连接地址作为es.nodes时,该参数需要配置为true;使用css服务提供的原始内网IP地址作为es.nodes时,不需要填写该参数或者配置为false。 es.mapping.id 指定一个字段,其值作为es中Document的id。
密码泄露的风险,优先推荐您使用DLI提供的跨源认证方式。 跨源认证简介及操作方法请参考跨源认证简介。 前提条件 创建DLI表关联DCS之前需要创建跨源连接,绑定队列。管理控制台操作请参考增强型跨源连接。 语法格式 指定Key 1 2 3 4 5 6 7 8 9 10
常见场景的委托权限策略 本节操作提供了DLI常见场景的委托权限策略,用于用户自定义权限时配置委托的权限策略。委托策略中的“Resource”根据需要具体情况进行替换。 数据清理委托权限配置 适用场景:数据清理委托,表生命周期清理数据及lakehouse表数据清理使用。该委托需新建后自定
partcol2=val2 ...)]; 关键字 表1 关键字说明 参数 描述 tablename 需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate
为包年/包月资源开通自动续费。 单个资源开通自动续费:选择需要开通自动续费的资源,单击操作列“更多 > 开通自动续费”。 批量资源开通自动续费:选择需要开通自动续费的资源,单击列表左上角的“更多 > 开通自动续费”。 选择续费时长,并根据需要设置自动续费次数,单击“开通”。 图3 开通自动续费