检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HetuEngine是高性能的交互式SQL分析及数据虚拟化引擎,它与大数据生态无缝融合,实现海量数据秒级交互式查询,并支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。 HetuEngine对Hudi仅支持select操作,即支持SELECT语法来查询Hudi表中的数据。 He
网配置。客户的DWS子网关联了网络ACL。网络ACL是一个子网级别的可选安全层,通过与子网关联的出方向/入方向规则控制出入子网的数据流。关联子网后,网络ACL默认拒绝所有出入子网的流量,直至添加放通规则。通过检查,发现其DWS所在子网关联的ACL是空值。 因此,问题的原因是:客户
型与目标表的Schema信息匹配。即确保源表和目标表的数据类型和列字段个数相同,以避免插入失败。 如果目标表中的某些字段在SELECT子句中没有被指定,那么这些字段也可能被插入默认值或置为空值(取决于该字段是否允许空值)。 父主题: SQL作业开发类
供用户调用的方法,DLI只对这些方法的兼容性做出产品保证。 图4 配置参数 表3 参数说明 名称 描述 CU数量 一个CU为1核4G的资源量。CU数量范围为2~400个。 管理单元 设置管理单元的CU数,支持设置1~4个CU,默认值为1个CU。 并行数 作业中每个算子的最大并行数。
java样例代码 操作场景 本例提供使用Spark作业访问DWS数据源的java样例代码。 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
如果目标数据源为云下的数据库,则需要通过公网或者专线打通网络。通过公网互通时,需确保CDM集群已绑定EIP、CDM云上安全组出方向放通云下数据源所在的主机、数据源所在的主机可以访问公网且防火墙规则已开放连接端口。 数据源为云上的DWS、MRS等服务时,网络互通需满足如下条件:
pyspark样例代码 开发说明 redis只支持增强型跨源。只能使用包年包月队列。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
DLI侧创建的Password类型的跨源认证名称。 使用跨源认证则无需在作业中配置账号和密码。 示例 该示例是从DCS Redis数据源中读取数据,并写入Print到结果表中,其具体步骤如下: 参考增强型跨源连接,根据redis所在的虚拟私有云和子网创建相应的增强型跨源,并绑定所要使用的Flink弹性资源池。
04:30:01.741). 原因分析 DLI源表对应字段cir为double类型。 图1 创建源表 目标表对应字段类型为decimal(9,6)。 图2 创建目标表 查询源表数据,发现导致问题产生的记录ctr值为1675,整数位(4位)超出所定义的decimal精度(9 – 6 = 3
通过跨源表向CloudTable Hbase表导入数据,executor报错:RegionTooBusyException 问题现象 客户通过DLI跨源表向CloudTable Hbase导入数据,原始数据:HBASE表,一个列簇,一个rowkey运行一个亿的模拟数据,数据量为9
操作场景 本例提供使用Spark作业访问DWS数据源的pyspark样例代码。 在DLI管理控制台上已完成创建跨源连接并绑定队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。
修改队列网段(废弃) 功能介绍 该功能用于修改包年包月队列网段。 如果待修改网段的队列中有正在提交或正在运行的作业,或者改队列已经绑定了增强型跨源,将不支持修改网段操作。 当前接口已废弃,不推荐使用。 调试 您可以在API Explorer中调试该接口。 URI URI格式: PUT
管理工具 > 数据源 (ODBC)”。 配置新的ODBC数据源。 在ODBC中单击“User DSN”。 单击“Add”创建新的数据源。 选择Hive ODBC Driver,单击“OK”。 图4 ODBC新建数据源连接 在创建的新数据源配置界面中,输入Kyuubi服务器的相关信息。 数据库名称:本例输入DLI数据库名称。
es"修改为对应的数据库名字。 passwdauth DLI侧创建的Password类型的跨源认证名称。使用跨源认证则无需在作业中配置账号和密码。 dbtable 数据库postgres中的数据表。 partitionColumn 读取数据时,用于设置并发使用的数值型字段。 说明:
HBase,请在增强型跨源的主机信息中添加MRS集群所有节点的主机IP信息。 详细操作请参考《数据湖探索用户指南》中的“修改主机信息”章节描述。 Flink跨源开发场景中直接配置跨源认证信息存在密码泄露的风险,优先推荐您使用DLI提供的跨源认证。 跨源认证简介及操作方法请参考跨源认证简介。 注意事项
元数据(Metadata)是用来定义数据类型的数据。主要是描述数据自身信息,包含源、大小、格式或其它数据特征。数据库字段中,元数据用于诠释数据仓库的内容。 创建表时,会定义元数据,由列名、类型、列描述三列组成。 “元数据”页面将显示目标表的列名、列类型、类型和描述。 查看元数据步骤 查看元数据的入口有两个,分
partition_clause 否 指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否 指定数据在一个窗口内如何排序。 返回值说明 返回DOUBLE类型的值。 a为NULL,则返回NULL。 示例代码 为便于理解函数的使用方法,本文为您提供源数据,基于源数据提供函数相关示例。
partition_clause 否 指定分区。分区列的值相同的行被视为在同一个窗口内。 orderby_clause 否 指定数据在一个窗口内如何排序。 返回值说明 返回INT类型的值。 a为NULL,则返回NULL。 示例代码 为便于理解函数的使用方法,本文为您提供源数据,基于源数据提供函数相关示例。创建表logs,并添加数据,命令示例如下:
式是Oracle推荐的,对于集群来说,每个节点的SID可能不一致,但ServiceName是一致的,包含所有节点。 driver Oracle驱动类名: oracle.jdbc.driver.OracleDriver dbtable 指定在Oracle关联的表名,或者"用户名.表名",例如:public
TBLPROPERTIES:表的属性增加表的生命周期功能。 参数说明 表1 修改表的生命周期参数说明 参数名称 是否必选 参数说明 table_name 是 需要修改生命周期的表名。 dli.lifecycle.days 是 修改后的生命周期时间,只能为正整数,单位为天。 示例 示例1:修改表的生命周期