检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
batch.size 1024 否 一次从 BE 读取数据的最大行数。增大此数值可减少Flink与Doris之间建立连接的次数。 从而减轻网络延迟所带来的额外时间开销。 doris.exec.mem.limit 2147483648 否 单个查询的内存限制。默认为 2GB,单位为字节。
Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本。 安装和配置IntelliJ IDEA IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI进行Spark
CLEANARCHIVE 命令功能 用于对Hudi表的归档文件进行清理,以减少Hudi表的数据存储及读写压力。 命令格式 按文件容量进行清理,需要配置参数: hoodie.archive.file.cleaner.policy = KEEP_ARCHIVED_FILES_BY_SIZE;
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的DWS、MRS等服务时,网络互通需满足如下条件: i. CDM集群与
Hudi Clean操作说明 什么是Clean Cleaning用于清理Hudi表不再需要的老版本数据文件 (parquet文件或者log文件),减轻存储压力,提升list操作效率。 如何执行Clean 写完数据后clean Spark SQL(设置如下参数,随后执行任意写入SQL时,在满足条件时触发)
SQL作业,访问其他外部数据源时,需要先创建跨源连接,打通作业运行队列到外部数据源之间的网络。 当前Flink作业支持访问的外部数据源详情请参考DLI常用跨源分析开发方式。 创建跨源连接操作请参见配置DLI与数据源网络连通(增强型跨源连接)。 创建完跨源连接后,可以通过“资源管理 > 队列管理
string_split string_split函数,根据指定的分隔符将目标字符串拆分为子字符串,并返回子字符串列表。 语法说明 string_split(target, separator) 表1 string_split参数说明 参数 数据类型 说明 target STRING
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的MRS、DWS等服务时,网络互通需满足如下条件: i. CDM集群与
CLEAN 命令功能 用于根据配置对Timeline上的Instant进行clean,删除老旧的历史版本文件,以减少hudi表的数据存储及读写压力。 命令格式 RUN CLEAN ON tableIdentifier; RUN CLEAN ON tablelocation; 参数描述
DLI预置的SQL模板中TPC-H样例数据说明 TPC-H样例数据简介 TPC-H(商业智能计算测试) 是交易处理效能委员会(TPC,Transaction Processing Performance Council) 组织制定的用来模拟决策支持类应用的一个测试集。目前,在学术
字符串函数 表1 字符串函数 SQL函数 描述 string1 || string2 返回 STRING1 和 STRING2 的连接。 CHAR_LENGTH(string) CHARACTER_LENGTH(string) 返回字符串中的字符数。 UPPER(string) 以大写形式返回字符串。
在DLI控制台修改表所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改表的所有者,将数据转移给其他所有者。 修改表所有者 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需要修改
Redis、DDS等,需要先创建跨源连接,打通作业运行队列到外部数据源之间的网络。 当前Spark作业支持访问的外部数据源详情请参考DLI常用跨源分析开发方式。 创建跨源连接操作请参见配置DLI与数据源网络连通(增强型跨源连接)。 创建完跨源连接后,可以通过“资源管理 > 队列管理
基于ModelArts提供的MindSpore预置镜像,并借助ModelArts命令行工具,通过加载镜像构建模板并修改Dockerfile,构建出一个新镜像,最后注册后在Notebook使用。 ModelArts命令行工具请参考ma-cli镜像构建命令介绍。 基础镜像地址:swr.{endpo
字符串函数 表1 字符串函数 函数 返回类型 描述 string1 || string2 STRING 返回两个字符串的拼接 CHAR_LENGTH(string) CHARACTER_LENGTH(string) INT 返回字符串中的字符数量 UPPER(string) STRING
字符串函数 表1 字符串函数 函数 返回类型 描述 string1 || string2 STRING 返回两个字符串的拼接 CHAR_LENGTH(string) CHARACTER_LENGTH(string) INT 返回字符串中的字符数量 UPPER(string) STRING
在DLI控制台修改数据库所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改数据库的所有者,将数据转移给其他所有者。 修改数据库所有者 修改数据库所有者的入口有两个,分别在“数据管理”和“SQL编辑器”页面。
Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本。 安装和配置IntelliJ IDEA IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 开发流程 DLI进行
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
Hudi数据表Clean规范 Clean也是Hudi表的维护操作之一,该操作对于MOR表和COW表都需要执行。Clean操作的目的是为了清理旧版本文件(Hudi不再使用的数据文件),这不但可以节省Hudi表List过程的时间,也可以缓解存储压力。 规则 Hudi表必须执行Clean。