检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业即可。 后续指引 如果您想通过Spark Jar作业访问其他数据源,请参考《使用Spark作业跨源访问数据源》。 如果您想通过Spark Jar作业在DLI创建数据库和表,请参考《使用Spark作业访问DLI元数据》。 完整样例代码参考 认证用的access.key和secret
Hudi数据表管理操作规范 Hudi数据表Compaction规范 Hudi数据表Clean规范 Hudi数据表Archive规范 父主题: DLI Hudi开发规范
opensource sql作业,运行如下作业脚本,通过DataGen表产生随机数据并输出到Print结果表中。 注意:创建作业时,在作业编辑界面的“运行参数”处,“Flink版本”选择“1.12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 create table
配置Hudi数据列默认值 该特性允许用户在给表新增列时,设置列的默认值。查询历史数据时新增列返回默认值。 使用约束 新增列在设置默认值前,如果数据已经进行了重写,则查询历史数据不支持返回列的默认值,返回NULL。数据入库、更新、执行Compaction、Clustering都会导致部分或全部数据重写。
连接redis的超时时间,单位ms,默认值2000(2秒超时)。 保存类型:Overwrite、Append、ErrorIfExis、Ignore 四种 如果需要保存嵌套的DataFrame,则通过“.option("model","binary")”进行保存 指定数据过期时间:“.option("ttl"
去重 功能描述 对在列的集合内重复的行进行删除,只保留第一行或最后一行数据。 语法格式 SELECT [column_list] FROM ( SELECT [column_list], ROW_NUMBER() OVER ([PARTITION BY col1[
Hudi数据表设计规范 Hudi表模型设计规范 Hudi表索引设计规范 Hudi表分区设计规范 父主题: DLI Hudi开发规范
ut测试。建立测试数据库的过程被称为装载数据,装载测试是为测试DBMS装载数据的能力。装载测试是第一项测试,测试装载数据的时间,这项操作非常耗时。Power 测试是在数据装载测试完成后,数据库处于初始状态,未进行其它任何操作,特别是缓冲区还没有被测试数据库的数据,被称为raw查询。Power测试要求22
统将创建DLI临时数据桶。该桶用于存储使用DLI服务产生的临时数据,例如:作业日志、作业结果等。如果不创建该桶,将无法查看作业日志。可以通过配置生命周期规则实现定时删除OBS桶中的对象或者定时转换对象的存储类别。桶名称为系统默认。 如果不需要创建DLI临时数据桶,并且希望不再收到
计费。 数据库 数据库即按照数据结构来组织、存储和管理数据的仓库。DLI服务管理权限的基础单元是数据库,赋权以数据库为单位。 在DLI中,表和数据库是定义底层数据的元数据容器。表中的元数据让DLI知道数据所在的位置,并指定了数据的结构,例如列名称、数据类型和表名称。数据库是表的逻辑分组。
典型场景示例:配置DLI 与公网网络连通 操作场景 公网数据源指的是可以通过互联网访问的数据源。这些数据源资源有一个公网IP地址,配置DLI与公网网络联通可以实现对这些数据源的访问。 本节提供了详细的操作指导,介绍如何通过设置SNAT规则和配置路由信息,实现DLI服务与公网的网络连接。
手动在OBS表的分区目录下添加了数据,但是无法查询到数据怎么办? 问题现象 手动在OBS表的分区目录下上传了分区数据,但是在SQL编辑器中查询该表新增的分区数据时却查询不到。 解决方案 手动添加分区数据后,需要刷新OBS表的元数据信息。具体操作如下: MSCK REPAIR TABLE
LI进行数据查询和分析 Superset是一个开源的数据探索和可视化平台,支持对数据进行快速、直观的探索,同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过
FILES_BY_DAYS时,该参数可以设置保留多少天以内的归档文件,默认值30(天)。 注意事项 归档文件,没有备份,删除之后无法恢复。 使用由DLI提供的元数据服务时,本命令不支持使用OBS路径。 系统响应 可以检查任务状态是否成功,查看任务日志确认有无异常。 父主题: Hudi
去重 功能描述 对在列的集合内重复的行进行删除,只保留第一行或最后一行数据。 语法格式 SELECT [column_list] FROM ( SELECT [column_list], ROW_NUMBER() OVER ([PARTITION BY col1[
跨源分析场景中,需要在connector中设置账号、密码等属性。但是账号密码等信息属于高度敏感数据,需要做加密处理,以保障用户的数据隐私安全。 数据加密服务(Data Encryption Workshop,DEW)安全、可靠、简单易用隐私数据加解密方案。 本例介绍在DEW创建通用凭证的操作步骤。了解更多请参考创建通用凭据。
DLI将Flink作业的输出数据输出到数据仓库服务(DWS)中。DWS数据库内核兼容PostgreSQL,PostgreSQL数据库可存储更加复杂类型的数据,支持空间信息服务、多版本并发控制(MVCC)、高并发,适用场景包括位置应用、金融保险、互联网电商等。 数据仓库服务(Data Warehouse
新的中间状态,默认设置为1小时。 脏数据策略 选择处理脏数据的策略。支持如下三种策略:“忽略”,“抛出异常”和“保存”。 “脏数据策略”选择“保存”时,配置“脏数据转储地址”。单击地址框选择保存脏数据的OBS路径。 仅DIS数据源支持配置脏数据策略。 (可选)根据需要设置自定义配
至DLI的同一个位置(同一个分组),直接覆盖原有的程序包或文件。 前提条件 所使用的程序包需提前上传至OBS服务中保存。 创建程序包步骤 在管理控制台左侧,单击“数据管理”>“程序包管理”。 在“程序包管理”页面,单击右上角“创建”可创建程序包。 在“创建程序包”对话框,参见表1设置相关参数。
置参数及参数值。 商用 创建批处理作业API 2020年5月 序号 功能名称 功能描述 阶段 相关文档 1 支持数据扫描量套餐包 DLI增加数据扫描量套餐包,降低数据扫描量费用。 商用 产品价格详情 2 支持全局变量功能 DLI支持设置全局变量,用于保护用户关键信息。 商用 全局变量