检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项,因此
示例 1 ALTER TABLE t1 ADD COLUMNS (column2 int, column3 string); 父主题: 修改表
在DLI控制台修改表所有者 在实际使用过程中,开发人员创建了数据库和表,交给测试人员进行测试,测试人员测试完成后,再交给运维人员进行体验,在这种情况下,可以通过修改表的所有者,将数据转移给其他所有者。 修改表所有者 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需要修改的表对应
修改队列网段(废弃) 功能介绍 该功能用于修改包年包月队列网段。 如果待修改网段的队列中有正在提交或正在运行的作业,或者改队列已经绑定了增强型跨源,将不支持修改网段操作。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: PUT
city='xxx')。 所指定的新的OBS路径必须是已经存在的绝对路径,否则将报错。 若新增分区指定的路径包含子目录(或嵌套子目录),则子目录下面的所有文件类型及内容也将作为该分区的记录。用户需要保证该分区目录下所有文件类型和文件内容与表的字段一致,否则查询将报错。 示例 将student表的分区dt='2008-08-08'
执行请求是否成功。“true”表示请求执行成功。 message 否 String 系统提示信息,执行成功时,信息可能为空。 请求示例 修改弹性资源池的描述信息、最大CU、最小CU。修改后的最小CU为78,修改后的最大CU为990。 { "description" : "test_update", "min_cu"
SQL作业执行完成后,修改表名导致datasize不正确怎么办? 在执行SQL作业后立即修改表名,可能会导致表的数据大小结果不正确。 这是因为DLI在执行SQL作业时,会对表进行元数据更新,如果在作业执行完成前修改了表名,会和作业的元数据更新过程冲突,从而影响对数据大小的判断。 为了避免
怎样查看DLI的数据扫描量? 登录DLI管理控制台。 选择“作业管理 > SQL作业”。 筛选执行队列为default队列,查看相应的作业。 单击展开作业,查看已扫描的数据。如图1所示。 图1 查看作业扫描量 父主题: 计费相关问题
tblproperties('hoodie.index.type'='xx'); 除Spark以外,其他引擎也可以修改Hudi表元数据,但是这种修改会导致整个Hudi表出现数据重复,甚至数据损坏;因此禁止修改上述属性。 父主题: Spark on Hudi开发规范
String 待修改定时扩缩计划的队列名称。名称长度为1~128个字符,多个队列名称使用逗号“,”分隔。 plan_id 否 Integer 待修改的队列扩缩容计划的ID。多个ID使用逗号“,”分隔。 请求示例 修改名称为plan_A的扩缩容计划,修改后队列在周四和周五的19:30扩
DLI分区内表导入的文件不包含分区列的数据,导致数据导入完成后查询表数据失败怎么办? 问题现象 DLI分区内表导入了CSV文件数据,导入的文件数据没有包含对应分区列的字段数据。分区表查询时需要指定分区字段,导致查询不到表数据。 问题根因 DLI分区内表在导入数据时,如果文件数据没有包含分
数据权限相关 数据权限列表 创建角色 删除角色 绑定角色 解绑角色 显示角色 分配权限 回收权限 显示已授权限 显示所有角色和用户的绑定关系
修改DLI程序包所有者 DLI提供了修改程序包组或程序包的所有者的功能。 登录DLI管理控制台,选择“数据管理 > 程序包管理”。 在“程序包管理”页面,单击程序包“操作 ”列中的“更多 > 修改所有者”。 如果该程序包进行过分组设置,选择“组”或者“程序包”进行修改。 图1 修改程序包所有者
删除数据库(废弃) 功能介绍 该API用于删除空数据库,默认方式下,若待删除的数据库中存在表,则需先删除其中的所有表。删除表API请参见删除表(废弃)。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: DELETE /v1
DLI如何访问OBS桶中的数据 创建OBS表。 具体语法请参考《数据湖探索SQL语法参考》。 添加分区。 具体语法请参考《数据湖探索SQL语法参考》。 往分区导入OBS桶中的数据。 具体语法请参考《数据湖探索SQL语法参考》。 查询数据。 具体语法请参考《数据湖探索SQL语法参考》。
清理多版本数据 功能描述 多版本数据保留周期是在表每次执行insert overwrite或者truncate语句时触发,所以当表的多版本数据在保留周期时间外但是后续该表不会再执行insert overwrite或者truncate语句时,多版本保留周期外的数据不会自动清理。可以
参考《数据湖探索开发指南》。 数据治理中心DataArts Studio 数据治理中心DataArts Studio具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数
需要执行Truncate命令的DLI表或者OBS表的名称。 partcol1 需要删除的DLI表或者OBS表的分区名称。 注意事项 只支持清除DLI表或者OBS表的数据。 示例 1 truncate table test PARTITION (class = 'test'); 父主题: 数据相关
8个字符。 修改组下的资源包拥有者,则该参数为必选参数。 “group_name”和“resource_name”可以单独使用,也可以组合使用。 修改组的拥有者:使用“group_name”。 修改资源包拥有者:使用“resource_name”。 修改组下的资源包的拥有者:同时
该场景下就需要使用REFRESH TABLE来解决该问题。REFRESH TABLE是用于重新整理某个分区的文件,重用之前的表元数据信息,能够检测到表的字段的增加或者减少,主要用于表中元数据未修改,表的数据修改的场景。 语法格式 1 REFRESH TABLE [db_name.]table_name;