检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。 父主题: SQL作业开发类
Flink 1.15依赖包 请在Flink作业的日志中获取Flink 1.15相关依赖包信息: 查看Flink日志。 登录DLI管理控制台,选择“作业管理 > Flink作业”。 单击作业名称,选择“运行日志”。 控制台只展示最新的运行日志,更多日志信息请查看保存日志的OBS桶。 在日志中搜索依赖包信息。
SDK操作指导请参考Java SDK Python SDK操作指导请参考Python SDK DLI SDK调用接口使用https进行访问,有服务端使用证书。
Flink作业执行计划 了解运行中的作业的算子流向。 查看Flink作业执行计划 查看Flink作业基本信息 单击“作业管理 > Flink作业”,进入Flink作业管理页面。Flink作业管理页面显示所有的Flink作业,通过Flink作业列表可以了解Flink作业的基本信息。 表2 Flink作业基本信息
创建含有复杂数据类型字段的表时,该表存储格式不支持CSV(txt)。 如果表中含有复杂数据类型字段时,该表不支持CSV(txt)格式的文件数据导入。 MAP数据类型建表必须指定schema,且不支持date、short、timestamp数据类型。 对于JSON格式OBS表,MAP的键类型只支持STRING类型。
DIS结果表 功能描述 DLI将Flink作业的输出数据写入数据接入服务(DIS)中。适用于将数据过滤后导入DIS通道,进行后续处理的场景。 数据接入服务(Data Ingestion Service,简称DIS)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外
certificate 否 无 String Elasticsearch集群的证书在OBS中的位置。 仅在开启安全模式,且开启https下需要配置该参数。 请先在CSS管理控制台下载证书后将证书上传至OBS,该参数配置的是OBS地址。 例如:obs://bucket/path/CloudSearchService
规格是包周期弹性资源池特有的。规格部分以包周期的计费,规格之外的部分按需计费。 数据库 数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。 在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所
创建数据库和表 了解数据目录、数据库和表 在DLI控制台创建数据库和表 查看表元数据 在DLI控制台管理数据库资源 在DLI控制台管理表资源 创建并使用LakeFormation元数据
选择“不分组”:不需要选择或输入组名称。 说明: 如果选择分组,则对应的权限管理为对应程序包组的权限管理。 如果选择不分组,则对应的权限管理为对应程序包的权限管理。 程序包组和程序包权限管理请参考程序包权限管理。 标签 使用标签标识云资源。包括标签键和标签值。如果您需要使用同一标签标
Hudi表初始化 初始化导入存量数据通常由Spark作业来完成,由于初始化数据量通常较大,因此推荐使用API方式给充足资源来完成。 对于批量初始化后需要接Flink或Spark流作业实时写入的场景,一般建议通过对上有消息进行过滤,从一个指定的时间范围开始消费来控制数据的重复接入量
BS桶中。 具体请参考《数据湖探索用户指南》。 通过OBS跨区域复制功能将数据复制至区域二的OBS桶中。 具体请参考跨区域复制。 根据需要导入或使用对应的数据。 父主题: SQL作业开发类
INSERT INTO命令和INSERT OVERWRITE命令同时执行,其结果是未知的。 在从源表插入数据到目标表的过程中,无法在源表中导入或更新数据。 对于Hive分区表的动态INSERT OVERWRITE,支持覆盖涉及到的分区数据,不支持覆盖整表数据。 如果需要覆盖Dat
在“程序包管理”页面,选择要授权的程序包组或程序包,单击“操作”列中的“权限管理”。 进入“用户权限信息”页面,单击页面右上角“授权”新增授权用户,并选择对应的权限。 如果创建程序包时选择了分组,则权限管理为对应程序包组的权限管理。 如果创建程序包时选择了不分组,则权限管理为对应程序包的权限管理。
修改DLI程序包所有者 DLI提供了修改程序包组或程序包的所有者的功能。 登录DLI管理控制台,选择“数据管理 > 程序包管理”。 在“程序包管理”页面,单击程序包“操作 ”列中的“更多 > 修改所有者”。 如果该程序包进行过分组设置,选择“组”或者“程序包”进行修改。 图1 修改程序包所有者
创建DLI表时不支持指定存储路径。 数据导入 仅支持将OBS上的数据导入DLI或OBS中。 支持将OBS中CSV,Parquet,ORC,JSON和Avro格式的数据导入到在DLI中创建的表。 将CSV格式数据导入分区表,需在数据源中将分区列放在最后一列。 导入数据的编码格式仅支持UTF-8。
本示例CDM集群的虚拟私有云、子网以及安全组和创建的CSS集群保持一致。 步骤一:数据准备 CSS集群上创建索引并导入数据。 登录CSS管理控制台,选择“集群管理 > Elasticsearch”。 在集群管理界面,在已创建的CSS集群的“操作”列,单击“Kibana”访问集群。 在Kibana的左侧导航中选择“Dev
with_column_header 否 Boolean 导入作业时,导入的数据是否包括列名。 delimiter 否 String 导入作业时,用户自定义数据分隔符。 quote_char 否 String 导入作业时,用户自定义引用字符。 escape_char 否 String 导入作业时,用户自定义转义字符。
的IP地址: 登录MRS管理控制台,选择“集群名称 > 组件管理 > ClickHouse > 实例”,获取ClickHouseBalancer实例的业务IP。 ClickHouseBalancer端口: 登录MRS管理控制台,选择“集群名称 > 组件管理 > ClickHouse
Jar作业可靠性配置与SQL作业相同,不再另行说明。 根据如下公式,配置作业的“CU数量”、“管理单元”与“最大并行数”: CU数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CU数 例如:CU数量为9CU,管理单元为1CU,最大并行数为16,则计算单元为8CU。 如果不手动配