检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
REFRESH TABLE刷新表元数据 功能描述 Spark为了提高性能会缓存Parquet的元数据信息。当更新了Parquet表时,缓存的元数据信息未更新,导致Spark SQL查询不到新插入的数据作业执行报错,报错信息参考如下: DLI.0002: FileNotFoundException:
15及以上版本的跨源访问场景推荐使用数据加密服务DEW来存储数据源的认证信息,为您解决数据安全、密钥安全、密钥管理复杂等问题。具体操作请参考使用DEW管理数据源访问凭证。 跨源认证用于管理访问指定数据源的认证信息。配置跨源认证后,无需在作业中重复配置数据源认证信息,提高数据源认证的安全性,便于DLI安全访问数据源。
更新管理 更新漏洞 DLI云服务通过华为云安全公告密切跟踪漏洞,如Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)、Fastjson存在反序列化漏洞(CNVD-2022-40233)等。 一旦发现服务模块涉及漏洞影响,会迅速通过官方解决方案升级现网更新漏洞。
SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。 产品介绍 图说DLI 立即使用 成长地图 由浅入深,带您玩转DLI
DLI内置依赖包 DLI内置依赖包是平台默认提供的依赖包,用户打包Spark或Flink jar作业jar包时,不需要额外上传这些依赖包,以免与平台内置依赖包冲突。 Spark 3.1.1 依赖包 表1 Spark 3.1.1 依赖包 依赖包名称 accessors-smart-1
可能会导致资源创建失败,请联系组织管理员了解标签策略详情。 DLI支持以下两类标签: 资源标签:在DLI中创建的非全局的标签。 预定义标签:在标签管理服务(简称TMS)中创建的预定义标签,属于全局标签。 有关预定义标签的更多信息,请参见《标签管理服务用户指南》。 以下介绍如何为跨源连接添加标签、修改标签和删除标签。
数据库相关 创建数据库 删除数据库 查看指定数据库 查看所有数据库
图解数据湖探索
数据定义语句DDL 创建源表 创建结果表 创建维表 Format 父主题: Flink Opensource SQL1.12语法参考
管理Spark作业模板 操作场景 在创建Spark作业时,您可以在已有的Spark样例模板中进行修改,来实现实际的作业逻辑需求,节约编辑SQL语句的时间。 当前云平台尚未提供预置的Spark模板,但支持用户自定义Spark作业模板,本节操作介绍在Spark管理页面创建Spark模板的操作方法。
图1 迁移数据至DLI 配置DLI读写外部数据源 如果您不想将数据导入OBS或DLI的数据表中,DLI提供的跨源访问能力,支持您在不迁移数据的情况下,连接数据源获取数据并进行数据分析。 具体操作请参考配置DLI读写外部数据源数据的操作流程。 父主题: 数据迁移与数据传输
(DLI程序包功能即将停用)上传至DLI管理程序包:提前将对应的jar包上传至OBS桶中,并在DLI管理控制台的“数据管理>程序包管理”中创建程序包,在作业配置时选择对应的DLI程序包。 本节操作介绍在DLI管理控制台上传并管理程序包的方式。 DLI程序包功能即将停用,使用Spark3.3.1及以上版本、和Flink1
DLI_TABLE 创建的DLI表名称。 注意事项 插入的数据不能为null;插入的数据相同,会覆盖原数据;插入的数据只有value值不同,也会覆盖原数据。 不支持INSERT OVERWRITE语法。 不建议对同一张表并发插入数据,因为有一定概率发生并发冲突,导致插入失败。 时间戳格式只支持yyyy-MM-dd
数据定义语句DDL 创建源表 创建结果表 创建维表 父主题: Flink Opensource SQL1.10语法参考
数据操作语句DML SELECT 集合操作 窗口 JOIN OrderBy & Limit Top-N 去重 父主题: Flink Opensource SQL1.10语法参考
数据操作语句DML SELECT 集合操作 窗口 JOIN OrderBy & Limit Top-N 去重 父主题: Flink Opensource SQL1.12语法参考
数据操作语句DML SELECT INSERT INTO 集合操作 窗口 分组聚合 Over聚合 JOIN OrderBy & Limit Top-N 去重 父主题: Flink Opensource SQL1.15语法参考
是 String 新增数据库名称。 数据库名称只能包含数字、英文字母和下划线,但不能是纯数字,且不能以下划线开头。 数据库名称大小写不敏感且不能为空。 输入长度不能超过128个字符。 说明: “default”为内置数据库,不能创建名为“default”的数据库。 description
支持跨账号导出数据,即,如果B账户对A账户授权后,A账户拥有B账户OBS桶的元数据信息和权限信息的读取权限,以及路径的读写权限,则A账户可将数据导出至B账户的OBS路径中。 导出数据步骤 导出数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管