检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
仅支持YARN集群。 上下游数据连接 除了开源connector之外,还提供开箱即用的connector,包括数据库(RDS、GaussDB)、消息队列(DMS)、数据仓库(DWS)、对象存储(OBS) 相比开源connector有较多易用性和稳定性提升。 仅提供开源connector。
sql作业,输入以下作业脚本,并提交运行。该作业模拟从kafka读取数据,并关联hive维表对数据进行打宽,并输出到print。 如下脚本中的加粗参数请根据实际环境修改。 CREATE CATALOG myhive WITH ( 'type' = 'hive' , 'default-database'
完成最新checkpoint所用的时间 flink_jobmanager_job_lastCheckpointSize 最新checkpoint的大小,如果启用了增量检查点或更改日志,则此度量可能与lastCheckpointFullSize不同。 flink_jobmanager_job_numberOfInProgressCheckpoints
表1 redis操作参数 参数 描述 host 需要连接的redis集群的IP。 获取方式为:登录华为云官网,之后搜索redis,进入“分布式缓存服务”,接着选择“缓存管理”,根据主机名称需要的IP,可选择其中任意一个IP进行复制即可(其中也包含了port信息),请参考图1。 port
purge"='true'时,清除元数据和数据文件。 "auto.purge"='false'时,仅清除元数据,数据文件会移入OBS回收站。默认值为“false”,且不建议用户修改此属性,避免数据删除后无法恢复。 CREATE TABLE orders ( orderkey bigint, orderstatus varchar
'1997-04-25 13:14:15' TO MINUTE) AS `result3` FROM testtable; 测试结果 message message2 message3 13:14 13:14 1997-04-25T13:14 CEIL 功能描述 返回将时间点向上取值到指定时间单位的值。
提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS,适用于大数据交互式分析场景。 注意事项 创建表时不会统计大小。 添加数据时会修改大小至0。 如需查看表大小可以通过OBS查看。 CTAS建表语句不能指定表的属性。 OBS目录下包含子目录的场景: 创建表时,若指定路径为
enable:本例配置为true,即代表开启DLI数据多版本功能,用于表数据的备份与恢复。 comment:表描述信息,TBLPROPERTIES内的描述信息支持后续修改。 orc.compress:指定orc存储的压缩方式,本例定义为ZLIB。 auto.purge:本例配置为true,即删除或者覆盖的数据会不经过回收站,直接被删除。
创建数据库 功能描述 创建数据库。 语法格式 1 2 3 CREATE [DATABASE | SCHEMA] [IF NOT EXISTS] db_name [COMMENT db_comment] [WITH DBPROPERTIES (property_name=property_value
置的开启时间,不包含设置的结束时间,例如设置时间段00-09,则时间段范围为:[00:00,09:00)。默认的扩缩容策略不支持时间段配置修改。 弹性资源池扩缩容策略生效规则为:在任意一个时间段周期内,优先满足所有队列的最小CU数。剩余的CU(弹性资源池最大CU-所有队列的最小CU数之和)则根据配置的优先级顺序分配:
导出DLI表数据至OBS中 支持将数据从DLI表中导出到OBS服务中,导出操作将在OBS服务新建文件夹,或覆盖已有文件夹中的内容。 注意事项 支持导出json格式的文件,且文本格式仅支持UTF-8。 只支持将DLI表(表类型为“Managed”)中的数据导出到OBS桶中,且导出的路径必须指定到文件夹级别。
Python SDK环境配置 操作场景 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装Python Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual
库表管理中表的列表页面,表类型为View的即代表视图表。 View只能通过SQL语句进行创建,不能通过“创建表”页面进行创建。视图中包含的表或视图信息不可被更改,如有更改可能会造成查询失败。 跨源表 跨源表是指能够跨越多个数据源进行查询和分析的数据表。这种表可以整合来自不同数据源的数据,提供统一的数据视图。
在DLI控制台创建数据库和表 数据库是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。 表是数据库最重要的组成部分之一。表是由行与列组合成的。每一列被当作是一个字段。每个字段中的值代表一种类型的数据。 数据库是一个框架,表是其实质内容。一个数据库包含一个或者多个表。
'1997-04-25 13:14:15' TO MINUTE) AS `result3` FROM testtable; 测试结果 message message2 message3 13:14 13:14 1997-04-25T13:14 CEIL 功能描述 返回将时间点向上取值到指定时间单位的值。
'/opt/flink/conf', 'default-database'='default', --下边是dew相关配置,请根据实际情况修改参数值 'properties.catalog.lakeformation.auth.identity.util.class' =
使用DLI将CSV数据转换为Parquet数据 应用场景 Parquet是面向分析型业务的列式存储格式,这种格式可以加快查询速度,查询Parquet格式数据时,只检查所需要的列并对它们的值执行计算,也就是说,只读取一个数据文件或表的一小部分数据。Parquet还支持灵活的压缩选项
DLI Hudi元数据 DLI Hudi元数据说明 创建Hudi表时会在元数据仓创建表的相关元数据信息。 Hudi支持对接DLI元数据和Lakeformation元数据(仅Spark 3.3.1及以上版本支持对接Lakeformation元数据),对接方式与Spark一致。 DL
DLI Delta元数据 在DLI中提交Spark SQL作业开发Delta的SQL语法请参考Delta SQL语法参考。 在DLI中提交Spark Jar作业开发Delta请参考在DLI使用Delta提交Spark Jar作业。 DLI Delta元数据说明 创建Delta表时会在元数据仓创建表的相关元数据信息。
计费概述 数据湖探索DLI的计费由不同的计费项组成,不同的计费项有不同的计费模式,如图1所示。 图1 DLI的计费组成 计费项 DLI的计费项包括计算计费、存储计费、扫描量计费。DLI的计费详情请参见DLI产品价格详情。您可以通过DLI提供的价格计算器,快速计算出购买资源的参考价格。