检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Development Kit)是对DLI服务提供的REST API进行的作业提交的封装,以简化用户的开发工作。用户直接调用DLI SDK提供的接口函数即可实现使用提交DLI SQL和DLI Spark作业。 DLI支持的SDK分为SDK V3和DLI服务自行开发的SDK。 (推荐)DLI SDK
DLI的数据可存储在哪些地方 DLI支持存储哪些格式的数据? DLI支持如下数据格式: Parquet CSV ORC Json Avro DLI服务的数据可以存储在哪些地方? OBS:SQL作业,Spark作业,Flink作业使用的数据均可以存储在OBS服务中,降低存储成本。
权限信息的读取权限,以及路径的读写权限,则A账户可将数据导出至B账户的OBS路径中。 导出数据步骤 导出数据的入口有两个,分别在“数据管理”和“SQL编辑器”页面。 在“数据管理”页面导出数据。 在管理控制台左侧,单击“数据管理”>“库表管理”。 单击需导出数据的表对应的数据库,进入该数据的“表管理”页面。
终端节点 终端节点(Endpoint)即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询所有服务的终端节点。 数据湖探索的终端节点如下表所示,请您根据业务需要选择对应区域的终端节点。 表1 数据湖探索的终端节点 区域名称 区域 终端节点(Endpoint)
Client将过滤条件传给HBase服务端进行处理,HBase服务端只返回用户需要的数据,提高了Spark SQL查询的速度。对于HBase不支持的过滤条件,例如组合Rowkey的查询,直接由Spark SQL进行。 支持查询下压的场景 数据类型场景 Int boolean short long double
约束与限制 您能创建的资源的数量与配额有关系,如果您想查看服务配额、扩大配额,具体请参见《如何申请扩大配额》。 更详细的限制请参见具体API的说明。 父主题: API使用前必读
在多个节点时,用分号间隔。 metric 所创建的DLI表对应的OpenTSDB中的指标名称。 tags metric对应的标签,用于归类、过滤、快速检索等操作。可以是1个到8个,以“,”分隔,包括对应metric下所有tagk的值。 注意事项 创建DLI表时,不需要指定time
欠费说明 用户在使用DLI服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务资源的正常运行,请及时充值。 欠费原因 已购买套餐包,但使用量超出套餐包额度,进而产生按需费用,同时账户中的余额不足以抵扣产生的按需费用。请参考已购买套餐包,为什么仍然产
窗口去重 功能描述 窗口去重是一种特殊的去重,它根据指定的多个列来删除重复的行,保留每个窗口和分区键的第一个或最后一个数据。 对于流式查询,与普通去重不同,窗口去重只在窗口的最后返回结果数据,不会产生中间结果。它会清除不需要的中间状态。 因此,窗口去重查询在用户不需要更新结果时,
导入作业的信息。具体请参考表4。 表4 job_mapping参数说明 参数名称 是否必选 参数类型 说明 old_job_id 否 Long 导入的作业ID。 new_job_id 否 Long 导入后的作业ID,如果“is_cover”为“false”,服务中有同名的作业,则该参数返回值为“-1”。
如果您需要对您所拥有的DLI资源进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),具体IAM使用场景可以参考权限管理概述。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用DLI服务的其它功能。
使用JDBC提交SQL作业 本文介绍通过JDBC连接DLI并提交SQL作业。 下载并安装JDBC驱动包 使用JDBC连接DLI并提交SQL作业 DLI JDBC Driver支持的API列表 父主题: 使用客户端工具连接DLI
查看弹性资源池详细信息,根据计算资源的类型选择结束计费需要执行的操作。 按需计费的弹性资源池如不再使用,可删除资源停止计费。 按需计费资源删除后,可能还会存在账单信息,因为系统通常会在使用后1个小时内对上一个结算周期的费用进行扣款。例如在8:30删除按小时结算的资源,但是8:00~9:00期间产生的费用,通常会在10:00左右才进行扣费。
窗口Top-N 功能描述 窗口 Top-N 是特殊的 Top-N,它返回每个分区键的每个窗口的N个最小或最大值。 与普通Top-N不同,窗口Top-N只在窗口最后返回汇总的Top-N数据,不会产生中间结果。窗口 Top-N 会在窗口结束后清除不需要的中间状态。 窗口 Top-N 适用于用户
se连接器基于HBase进行SQL查询。 HBase连接器在upsert模式下运行,可以使用 DDL 中定义的主键与外部系统交换更新操作消息。但是主键只能基于HBase的rowkey字段定义。如果没有声明主键,HBase连接器默认取rowkey作为主键。详情可参考HBase SQL
DLI资源 资源是服务中存在的对象。在DLI中,资源如下,您可以在创建自定义策略时,通过指定资源路径来选择特定资源。 表1 DLI的指定资源与对应路径 资源类型 资源名称 资源路径 queue DLI队列 queues.queuename database DLI数据库 databases
参考图10可以看到数据倾斜时,单个任务的shuffle数据远大于其他Task的数据,导致该任务耗时时间变长。 图10 数据倾斜示例图 数据倾斜原因和解决: Shuffle的数据倾斜基本是由于join中的key值数量不均衡导致。 对join连接条件进行group by 和count,统计每个连接条件的key值的数量。示例如下:
使得资源的权限控制更加精确。 在我的凭证下,您可以查看项目ID。 图1 项目隔离模型 企业项目 企业项目是项目的升级版,针对企业不同项目间资源的分组和管理,是逻辑隔离。企业项目中可以包含多个区域的资源,且项目中的资源可以迁入迁出。 关于企业项目ID的获取及企业项目特性的详细信息,请参见《企业管理服务用户指南》。
STRICT,对列的修改,仅对表的元数据产生作用。 列修改命令只能修改表/分区的元数据,而不会修改数据本身。用户应确保表/分区的实际数据布局符合元数据定义。 不支持更改表的分区列/桶列,也不支持更改ORC表。 修改表或分区的存储位置。 ALTER TABLE table_name
储的起点是DLI表创建成功的时间点,而非创建的时间。您可以在“数据管理 > 库表管理”查看DLI表的创建成功的时间。 计费示例 价格仅供参考,实际计算请以数据湖探索价格详情中的价格为准。 假设您在2023/04/18 9:59:30购买了一个按需弹性资源池资源(规格:64CUs)