检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
12”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 创建HBase源表的列簇必须定义为ROW类型,字段名对应列簇名(column family),嵌套的字段名对应列限定符名(column qualifier)。 用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列,剩下的原子数据类型字段(比如,STRING
SQL使用DEW管理访问凭据 创建HBase源表的列簇必须定义为ROW类型,字段名对应列簇名(column family),嵌套的字段名对应列限定符名(column qualifier)。 用户只需在表结构中声明查询中使用的的列簇和列限定符。除了ROW类型的列,剩下的原子数据类型字段(比如,STRING
(推荐)DLI SDK V3 写作说明 本文介绍了DLI服务提供的V3版本的SDK,列举了最新版本SDK的获取地址。 SDK列表 表1提供了DLI云服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址
Hbase导入数据,原始数据:HBASE表,一个列簇,一个rowkey运行一个亿的模拟数据,数据量为9.76GB。导入1000W条数据后作业失败。 原因分析 查看driver错误日志。 查看executor错误日志。 查看task错误日志。 结论:rowkey过于集中,出现了热点region。
类型 说明 OBS授权 介绍将OBS桶的操作权限授权给DLI的Java SDK使用说明。 队列相关 介绍创建队列、获取默认队列、查询所有队列、删除队列的Java SDK使用说明。 资源相关 介绍上传资源包、查询所有资源包、查询指定资源包、删除资源包的Java SDK使用说明。 SQL作业相关
队列,队列关联到具体的作业和数据处理任务,是资源池中资源被实际使用和分配的基本单元,即队列是执行作业所需的具体的计算资源。 同一弹性资源池中,队列之间的计算资源支持共享。 通过合理设置队列的计算资源分配策略,可以提高计算资源利用率。 发布区域:以用户指南中的说明为准 DLI对接LakeFormation
Python SDK列表 类型 说明 队列相关 介绍查询所有队列的Python SDK使用说明。 资源相关 介绍上传资源包、查询所有资源包、查询制定资源包、删除资源包的Python SDK使用说明。 SQL作业相关 介绍数据库相关、表相关、作业相关的Python SDK使用说明。 Spark作业相关
和子网分别创建相应的增强型跨源连接,并绑定所要使用的Flink弹性资源池。 设置DWS和Kafka的安全组,添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据DWS和Kafka的地址测试队列连通性。若能连通,则表示跨源已经绑定成功,否则表示未成功。 连接DWS
操作场景 公网数据源指的是可以通过互联网访问的数据源。这些数据源资源有一个公网IP地址,配置DLI与公网网络联通可以实现对这些数据源的访问。 本节提供了详细的操作指导,介绍如何通过设置SNAT规则和配置路由信息,实现DLI服务与公网的网络连接。 操作流程 图1 配置DLI队列访问公网流程
table_name LIMIT number; 关键字 LIMIT:对查询结果进行限制,number参数仅支持INT类型。 注意事项 所查询的表必须是已经存在的表,否则会出错。 示例 查询表opentsdb_table中的数据。 1 SELECT * FROM opentsdb_table
LI进行数据查询和分析 Superset是一个开源的数据探索和可视化平台,支持对数据进行快速、直观的探索,同时支持创建丰富的数据可视化和交互式仪表板。 Kyuubi是一个分布式 SQL 查询引擎,它提供了标准的SQL接口,使用户能够方便地访问和分析存储在大数据平台中的数据。 通过
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。
Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。 feature 否 String 作业特性。表示用户作业使用的Spark镜像类型。 basic:表示使用DLI提供的基础Spark镜像。
Print结果表 功能描述 print connector用于将用户输出的数据打印到error文件或者taskmanager的out文件中,方便用户查看,主要用于代码调试,查看输出结果。 语法格式 1 2 3 4 5 6 7 create table printSink ( attr_name
USING:指定所存储格式。 OPTIONS:导出时的属性列表,为可选项。 参数 表1 INSERT OVERWRITE DIRECTORY参数描述 参数 描述 path 要将查询结果写入的OBS路径。 file_format 写入的文件格式,支持按CSV、Parquet、ORC、JSON、Avro格式。
查询所有表(废弃) 功能介绍 该API用于查询指定数据库下符合过滤条件的或所有的表信息。 当前接口已废弃,不推荐使用。 URI URI格式: GET /v1.0/{project_id}/databases/{database_name}?keyword=tb&with-detail=true
导航”栏可查看到连接的数据库信息。 通过新建的连接即可对DLI执行后续的数据查询相关工作。 步骤3:在DBeaver编写SQL查询 在DBeaver建立与DLI的连接后,即可在DBeaver编写SQL查询: 您可以在左侧的数据库导航面板中选择数据库对象,然后在中间的查询编辑器中编写SQL语句。
SQL权限管理或者IAM鉴权管理DLI元数据的权限 DLI SQL权限管理: 在“数据湖探索 > 数据管理 > 库表管理”页面,搜索要授权的库/表。 单击表操作列的“权限管理”,即可查看当前库/表授权信息或者新增授权。 更多信息请参考在DLI控制台管理数据库资源。 IAM鉴权: 参考权限管理概述章节中的“IAM鉴权使用场景”。
OBS的使用涉及以下几项费用: 存储费用:静态网站文件存储在OBS中产生的存储费用。 请求费用:用户访问OBS中存储的静态网站文件时产生的请求费用。 流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。
'{UserName}', Action = 'SELECT'. 解决措施 出现该问题的原因是由于当前用户没有该表的查询权限。 您可以进入“数据管理 > 库表管理”查找对应库表,查看权限管理,是否配置该账号的查询权限。 授权方式请参考资料表权限管理。 父主题: DLI权限管理类