检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
转换函数 cast转换函数 HetuEngine会将数字和字符值隐式转换成正确的类型。HetuEngine不会把字符和数字类型相互转换。例如,一个查询期望得到一个varchar类型的值,HetuEngine不会自动将bigint类型的值转换为varchar类型。 如果有必要,可以将值显式转换为指定类型。
设置写入方式 Hudi通过hoodie.datasource.write.operation参数设置写入模式。 insert: 该操作不需要通过索引去查询具体更新的文件分区,因此它的速度比upsert快。当不包含更新数据时建议使用该操作,如果存在更新数据使用该操作会出现重复数据。 bulk_
该SDK接口不支持sql_pattern,即通过指定sql片段作为作业过滤条件进行查询。 如果需要则可以通过查询所有作业API接口指定该参数进行查询。 查询SQL类型作业 您可以使用该接口查询当前工程下的所有SQL类型作业的信息并获取查询结果。示例代码如下: def list_sql_jobs(dli_client):
单击“启动”后,跳转至“作业配置清单”页面。 在“作业配置清单”页面,确认作业信息及价格,如果无误,单击“立即启动”。 作业启动后,可在对应作业的“状态”列中查看运行成功或失败。 停止作业 当用户不需要运行某个作业时,用户可以将状态为“运行中”和“提交中”的作业停止。 在DLI管理控制台的左侧导航栏
事务日志来跟踪这些文件,并通过读取所有 Parquet 文件的页脚来自动推断数据架构。 转换过程会收集统计信息,以提升转换后的 Delta 表的查询性能。 如果提供表名,则元存储也将更新,以反映该表现在是 Delta 表。 注意事项 分区表转换需要设置参数spark.sql.force
join 所指定的表在顺序执行中不会产生不支持的 cross join (笛卡儿积)以致查询失败。 流查询中可能会因为不同行的输入数量导致计算结果的状态无限增长。请提供具有有效保留间隔的查询配置,以防止出现过多的状态。 示例 SELECT * FROM Orders INNER JOIN
源不会立即停止服务,资源进入宽限期。您需支付按需资源在宽限期内产生的费用,相关费用可在“管理控制台 > 费用中心 > 总览”的“欠费金额”查看,华为云将在您充值时自动扣取欠费金额。 如果您在宽限期内仍未支付欠款,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的按需计费资源执行任何操作。
获取DLI委托信息(废弃) 功能介绍 该API用于获取DLI用户委托信息。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: GET /v2/{project_id}/agency 参数说明 表1 URI参数 参数名称 是否必选
可能会造成查询失败。 如果创建表和创建视图使用的计算引擎不一致,可能会因为varchar类型不兼容,导致视图查询失败。 例如:使用Spark 3.x版本创建的表,建议您使用Spark 2.x创建相应的视图。 示例 先通过对student表中的id和name数据进行查询,并以该查询结果创建视图student_view。
队列相关API(推荐) 创建队列 删除队列 查询所有队列 查询队列详情 重启/扩容/缩容队列 创建指定地址连通性测试请求 查询指定地址连通性测试详情
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 推荐使用临时表进行数据中转 自读自写在突发异常场景下存在数据丢失的风险 执行SQL: INSERT OVERWRITE TABLE tablename select
Flink作业相关API 新建SQL作业 更新SQL作业 新建Flink Jar作业 更新Flink Jar作业 批量运行作业 查询作业列表 查询作业详情 查询作业执行计划 批量停止作业 删除作业 批量删除作业 导出Flink作业 导入Flink作业 生成Flink SQL作业的静态流图
修改数据库用户(废弃) 功能介绍 用于修改数据库的owner。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: PUT /v1.0/{project_id}/databases/{database_name}/owner 参数说明
化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。 DLI+HetuEngine能够快速处理大规模数据集的查询请求,迅速和高效从大数据中提取信息,极大地简化了数据的管理和分析流程,提升大数据环境下的索引和查询性能。 TB级数据秒级响应: HetuEngine通过自动
据(废弃)的功能一致,区别仅在于实现方式不同。 另外,用户可使用其他API来对作业进行查询和管理。具体操作有: 查询作业状态 查询作业详细信息 查询作业结果-方式一(废弃) 导出查询结果 查询所有作业 取消作业(废弃) 该API当响应消息中“job_type”为“DCL”时,为同步操作。
API中除特殊说明外,通常为同步操作,即响应消息中的“is_success”为请求是否执行成功。 若API为异步操作,可根据响应消息中的“job_id”,执行查询作业状态API,从而获取该异步操作API最终是否执行成功。 同时数据湖探索还提供多种编程语言的SDK供您使用,SDK的使用方法请参见华为云开发工具包(SDK)。
bucketName}.{obs域名}/{jarPath}/{jarName}。 description:资源包描述信息。 查询所有资源包 DLI提供查询资源列表接口,您可以使用该接口并选择相应的资源来执行作业。示例代码如下: 1 2 3 4 5 6 7 8 9
具有复杂分组语法(GROUPING SETS、CUBE或ROLLUP)的查询只从基础数据源读取一次,而使用UNION ALL的查询将读取基础数据三次。这就是当数据源不具有确定性时,使用UNION ALL的查询可能会产生不一致的结果的原因。 --创建一个航运表 create table
创建并提交SQL作业 场景描述 本章节指导用户通过API提交SQL作业创建数据库和表,并查询数据。 涉及接口 创建弹性资源池 创建队列 提交SQL作业(推荐) 操作步骤 创建弹性资源池elastic_pool_dli 接口相关信息 URI格式:POST /v3/{project_
语法生成的虚拟列。它由使用同一表中其他列的非查询表达式生成,并且不会在表中进行物理存储。例如,一个计算列可以使用 cost AS price * quantity 进行定义,这个表达式可以包含物理列、常量、函数或变量的任意组合,但这个表达式不能存在任何子查询。 在 Flink 中计算列一般用于为