检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CLEANING 命令功能 对Hudi表进行cleaning操作,具体作用可以参考Hudi Clean操作说明章节。 命令格式 call run_clean(table=>'[table]', clean_policy=>'[clean_policy]', retain_comm
将OBS数据导入至DLI 本节操作介绍将OBS上的数据导入到DLI控制台的表中。 注意事项 导入数据时只能指定一个路径,路径中不能包含逗号。 如果将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 不建议对同一张表并发导入数据,因为有一定概率发生并发冲突,导致导入失败。
CLEAN_FILE 命令功能 用于清理Hudi表目录下的无效数据文件。 命令格式 call clean_file(table => '[table_name]', mode=>'[op_type]', backup_path=>'[backup_path]', start_in
DataGen 功能描述 DataGen主要用于生成随机数据,可用于调试以及测试等场景。 表1 支持类别 类别 详情 支持表类型 源表 注意事项 创建DataGen表时,表字段类型不支持Array,Map和Row复杂类型,可以通过CREATE TABLE语句中的“COMPUTED
DataGen源表 功能描述 DataGen主要用于生成随机数据,可用于调试以及测试等场景。 前提条件 无 注意事项 创建DataGen表时,表字段类型不支持Array,Map和Row复杂类型,可以通过CREATE TABLE语句中的“COMPUTED COLUMN”来进行类似功能构造。
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。
使用DLI分析车联网场景驾驶行为数据 应用场景 在车联网领域,云计算与大数据为企业提供了强大的分析挖掘能力,可以帮助企业和车队管理者更加科学、便捷地进行车辆数据管理与分析。 方案架构 根据已有的某货运公司车辆定时上报的详单数据和货运订单数据,DLI可以完成对该货运公司车辆行驶特点分析、记录明细的查询。
修改列注释 功能描述 修改非分区表或分区表的列注释信息。 语法格式 ALTER TABLE [db_name.]table_name CHANGE COLUMN col_name col_name col_type COMMENT 'col_comment'; 关键字 CHANGE
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
自动续费 自动续费可以减少手动续费的管理成本,避免因忘记手动续费而导致资源被自动删除。自动续费的规则如下所述: 以资源的到期日计算第一次自动续费日期和计费周期。 您可以在购买资源时开通自动续费,在购买资源时,自动续费周期以实际选择的续费时长为准。 在到期前均可开通自动续费,到期前
Hudi表索引设计规范 规则 禁止修改表索引类型。 Hudi表的索引会决定数据存储方式,随意修改索引类型会导致表中已有的存量数据与新增数据之间出现数据重复和数据准确性问题。常见的索引类型如下: 布隆索引:Spark引擎独有索引,采用bloomfiter机制,将布隆索引内容写入到Parquet文件的footer中。
条件函数 函数说明 表1 条件函数 条件函数 函数说明 CASE value WHEN value1_1 [, value1_2 ]* THEN result1 [ WHEN value2_1 [, value2_2 ]* THEN result2 ]* [ ELSE resultZ
Raw Format 功能描述 Raw format 允许读写原始(基于字节)值作为单个列。 注意: 这种格式将 null 值编码成 byte[] 类型的 null。这样在 upsert-kafka 中使用时可能会有限制,因为 upsert-kafka 将 null 值视为 墓碑
JSON函数 JSON函数使用SQL标准的ISO/IEC TR 19075-6中描述的JSON路径表达式。它们的语法受到ECMAScript的启发并采用了ECMAScript的许多特性,但既不是其子集,也不是其超集。 路径表达式有两种,一种是宽松模式,另一种是严格模式。当省略时,
FileSystem结果表 功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完
Hudi表分区设计规范 规则 分区键不可以被更新: Hudi具有主键唯一性机制,但在分区表的场景下通常只能保证分区内主键唯一,因此如果分区键的值发生变更后,会导致相同主键的行记录出现多条的情况。在以日期分区的场景,可采用数据的创建时间为分区字段,切记不要采用数据更新时间做分区。
对象存储OBS结果表 功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。 考虑到输入流可以是无界的,每个桶中的数据被组织成有限大小的Part文件。完全可以
功能总览 功能总览 全部 数据湖探索 权限管理 弹性资源池 DLI元数据 DLI SQL作业 DLI Spark作业 DLI Flink作业 跨源连接 DLI自定义委托 自定义镜像 OBS 2.0支持 数据湖探索 数据湖探索(Data Lake Insight,以下简称DLI)是完全兼容Apache
创建批处理作业 功能介绍 该API用于在某个队列上创建批处理作业。 调试 您可以在API Explorer中调试该接口。 URI URI格式: POST /v2.0/{project_id}/batches 参数说明 表1 URI参数 参数名称 是否必选 参数类型 说明 project_id
DIS源表 功能描述 创建source流从数据接入服务(DIS)获取数据。用户数据从DIS接入,Flink作业从DIS的通道读取数据,作为作业的输入数据。Flink作业可通过DIS的source源将数据从生产者快速移出,进行持续处理,适用于将云服务外数据导入云服务后进行过滤、实时分析、监控报告和转储等场景。