检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上述报错可能原因是当前导入的文件数据量较大,同时因为spark.sql.shuffle.partitions参数设置的并行度过大,导致缓存区大小不够而导入数据报错。 解决方案 建议可以尝试调小spark.sql.shuffle.partitions参数值来解决缓冲区不足问题。具体该参数设置步骤如下: 登录DLI管理控制台,单击“作业管理
跨源连接RDS表 创建DLI表关联RDS 插入数据至RDS表 查询RDS表 父主题: 跨源连接相关
设置为“true”,表示导出列名。 设置为“false”,表示不导出列名。 若为空,默认为“false”。 limit_num 否 Integer 需要导出的数据数量,默认值为“0”,表示全部导出。 encoding_type 否 String 导出数据的编码格式。默认使用utf-8。 支持以下编码格式:
字符码不一致导致数据乱码怎么办? 在DLI执行作业时,为了避免因字符编码不一致导致的乱码问题,建议您统一数据源的编码格式。 DLI服务只支持UTF-8文本格式,因此在执行创建表和导入操作时,用户的数据需要以UTF-8编码。 在将数据导入DLI之前,确保源数据文件(如CSV、JSO
hbase CloudTable/MRS OpenTSDB: sys.datasource.opentsdb RDS MySQL: sys.datasource.rds RDS PostGre: 不需要选 DWS: 不需要选 CSS: sys.datasource.css resources
0/{project_id}/databases/{database_name} 参数说明 表1 URI 参数 参数名称 是否必选 参数类型 说明 project_id 是 String 项目编号,用于资源隔离。获取方式请参考获取项目ID。 database_name 是 String 删除的数据库名称。
支持的权限类型可参见数据权限列表。 resource可以是queue、database、table、view、column,格式分别为: queue的格式为:queues.queue_name database的格式为:databases.db_name table的格式为:databases
ptions参数设置,例如:csv的分隔符,转义符等。 当OBS桶目录下有文件夹和文件同名时,加载数据会优先指向该路径下的文件而非文件夹。建议创建OBS对象时,在同一级中不要出现同名的文件和文件夹。 导出数据 DLI提供导出数据的接口。您可以使用该接口将DLI表中的数据导出到OBS中。示例代码如下:
在“购买队列”页面,参见表2设置相关参数。 表2 参数说明 参数名称 描述 计费模式 包年/包月 该计费模式的队列为专属队列。 按需计费:建议购买cu时套餐包享受优惠。 区域 选择所在的区域。不同区域的云服务之间内网互不相通;请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。
// 执行archivelog合并清理元数据文件 关于清理、归档参数的值不宜设置过大,会影响Hudi表的性能,通常建议: hoodie.cleaner.commits.retained = compaction所需要的commit数的2倍 hoodie.keep
分配和调整资源。了解DLI的队列类型请参考DLI队列类型。 DLI弹性资源池之间为物理集群隔离,同一个弹性资源池中的队列之间为逻辑隔离。 建议您对测试业务场景和生产业务场景分别创建弹性资源池,通过资源物理隔离的方式,保障资源管理的独立性和安全性。 DLI计算资源模式 DLI提供了
图5 新建DLI SQL脚本 在脚本编辑页面输入创建数据库和表的示例代码。 1 2 3 4 ```SQL -- 创建数据库CREATE DATABASE IF not EXISTS supermarket_db; -- 创建商品维表CREATE TABLE IF not EXISTS
企业项目:当前选择为“default”。 高级选项:选择“自定义”。 网段:配置队列网段。例如,当前配置为10.0.0.0/16。 队列的网段不能和DMS Kafka、RDS MySQL实例的子网网段有重合,否则后续创建跨源连接会失败。 其他参数根据需要选择和配置。 参数配置完成后,单击“立即购买”,确认配置信息无误后,单击“提交”完成队列创建。
说明 distinct或all 否 表示在计数时是否去除重复记录,默认为all,即计算全部记录。 如果指定distinct,则只计算唯一值数量。 colname 是 列值可以为任意类型。 colname可以为*,即count(*),返回所有行数。 返回值说明 返回BIGINT类型。
数据湖探索API请参考:数据湖探索API。 DLI自定义的Spark3.1.1镜像,需要把第三方依赖jar放到哪个路径下呢? DLI自定义的Spark3.1.1镜像,建议将第三方依赖jar存放/opt/spark/jars目录。 父主题: Spark作业开发类
2.4.5版本优势 特性 说明 支持配置小文件合并 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 参考如何合并小文件完成合并小文件。 支持修改非分区表或分区表的列注释 修改非分区表或分区表的列注释。 支持统计SQL作业的CPU消耗
系统提示信息,执行成功时,信息可能为空。 database_count 否 Integer 数据库的总数。 databases 否 Array of objects 数据库信息。具体参数请参见表4。 表4 databases参数 参数名称 是否必选 参数类型 说明 database_name 否 String
认证信息名称 所创建的跨源认证信息名称。 名称只能包含数字、英文字母和下划线,但不能是纯数字,且不能以下划线开头。 输入长度不能超过128个字符。 建议名称中包含CSS安全集群的名称,便于区分不同集群的安全认证信息。 类型 选择CSS。 用户名 安全集群的登录用户名。 用户密码 安全集群的登录密码。
DWS源表 功能描述 DLI将Flink作业从数据仓库服务(DWS)中读取数据。DWS数据库内核兼容PostgreSQL,PostgreSQL数据库可存储更加复杂类型的数据,支持空间信息服务、多版本并发控制(MVCC)、高并发,适用场景包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data
择MOR表模型。 Hudi表名以及列名采用小写字母。 多引擎读写同一张Hudi表时,为了规避引擎之间大小写的支持不同,统一采用小写字母。 建议 Spark批处理场景,对写入时延要求不高的场景,采用COW表。 COW表模型中,写入数据存在写放大问题,因此写入速度较慢;但COW具有非