检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
API进行的作业提交的封装,以简化用户的开发工作。用户直接调用DLI SDK提供的接口函数即可实现使用提交DLI SQL和DLI Spark作业。 DLI支持的SDK分为SDK V3和DLI服务自行开发的SDK。 (推荐)DLI SDK V3:是根据定义API的YAML文件统一自动生成,其接口参数与服务的API一致。
select_statement; 关键字 UNION:集合运算,以一定条件将表首尾相接,其中每一个SELECT语句返回的列数必须相同,列的类型和列名不一定要相同。 注意事项 UNION默认是去重的,UNION ALL是不去重的。 不能在多个集合运算间(UNION,INTERSECT,EXCEPT)加括号,否则会出错。
时间窗口join需要至少一个 equi-join 谓词和一个限制了双方时间的 join 条件。 例如使用两个适当的范围谓词(<, <=, >=, >),一个 BETWEEN 谓词或一个比较两个输入表中相同类型的时间属性(即处理时间和事件时间)的相等谓词 比如,以下谓词是合法的窗口 join
时间窗口join需要至少一个 equi-join 谓词和一个限制了双方时间的 join 条件。 例如使用两个适当的范围谓词(<, <=, >=, >),一个 BETWEEN 谓词或一个比较两个输入表中相同类型的时间属性(即处理时间和事件时间)的相等谓词 比如,以下谓词是合法的窗口 join
result 是 所有数据类型。 search和expression的值匹配时的返回值。 default 否 与result一致。 如果所有的搜索项都不匹配,则返回default值,如果未指定,则返回NULL。 返回值说明 result 和 default 为返回值,支持返回所有的数据类型。
mi代表分钟。 ss代表秒。 返回值说明 返回BIGINT类型的值。 timestamp值为NULL时,返回NULL。 timestamp和pattern都为空时,返回从“1970-01-01 00:00:00”到现在的秒数代表的时间戳。 示例代码 返回1692149997。 select
建议 Archive作业每天至少执行一次,可以2~4小时执行一次。 Hudi的MOR表和COW表都需要保证每天至少1次Archive,MOR表的Archive可以参考2.2.1.6小节和Compaction放在一起异步去执行。COW的Archive可以在写数据时自动判断是否执行。
DLI Hudi元数据 DLI Hudi元数据说明 创建Hudi表时会在元数据仓创建表的相关元数据信息。 Hudi支持对接DLI元数据和Lakeformation元数据(仅Spark 3.3.1及以上版本支持对接Lakeformation元数据),对接方式与Spark一致。 DL
DLI计算引擎版本生命周期 版本号说明 DLI计算引擎版本号:格式为计算引擎名称 x.y.z,其中计算引擎分为Flink和Spark,版本号具体含义如图1所示。 图1 DLI计算引擎版本号 版本支持情况 Flink计算引擎推荐版本:Flink 1.15。 Spark计算引擎推荐版本:
个查询顺序执行1 遍,同时执行一对RF1 和RF2 操作。最后进行Throughput 测试,也是最核心和最复杂的测试,更接近于实际应用环境,与Power 测试比对SUT 系统的压力有非常大的增加,有多个查询语句组,同时有一对RF1 和RF2 更新流。 测试中测量的基础数据都与执
说明 目前包含以上6种格式。 指定数据格式的方式有两种,一种是USING,可指定以上6种数据格式,另一种是STORED AS,只能指定ORC和PARQUET。 ORC对RCFile做了优化,可以提供一种高效的方法来存储Hive数据。 PARQUET是面向分析型业务的列式存储格式。 父主题:
.enableHiveSupport() .getOrCreate() 获取结果为AK/SK和Securitytoken时,鉴权时,临时AK/SK和Securitytoken必须同时使用,设置如下: 代码创建SparkContext val sc: SparkContext
一旦发现服务模块涉及漏洞影响,会迅速通过官方解决方案升级现网更新漏洞。 更新配置 DLI云服务通过版本更新升级更新配置,确保服务的安全性和稳定性。 父主题: 安全
(none) String 用于对Kafka消息中key部分序列化和反序列化的格式。key字段由PRIMARY KEY语法指定。支持的格式如下: csv json avro 请参考Format页面以获取更多详细信息和格式参数。 key.fields-prefix 否 (none) String
r的支持,新增了Redis、DWS作为数据源类型。为用户提供了更多的数据源选择,使得数据集成更加灵活和方便。 Flink OpenSource SQL作业适合通过SQL语句来定义和执行流处理逻辑的场景,简化了流处理的复杂性,使得开发者可以更加专注于业务逻辑的实现。 创建Flink
Python SDK访问指定服务的 API ,您需要确认已在DLI管理控制台开通当前服务并完成服务授权。 Python版本建议使用2.7.10和3.4.0以上版本,需要配置Visual C++编译环境Visual C++ build tools 或者 Visual Studio。 关
获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点,可以从地区和终端节点获取。 响应示例如下,例如DLI服务部署的区域为“cn-north-4”,相应消息体中查找“name”为“cn-north-4”,其
Hudi通过其写入客户端API提供了不同的操作,如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡,Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配
时分析、监控报告和转储等场景。 数据接入服务(Data Ingestion Service,简称DIS)为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网
Postgres CDC源表 功能描述 Postgres的CDC源表,即Postgres的流式源表,用于依次读取PostgreSQL数据库全量快照数据和变更数据,保证不多读一条也不少读一条数据。即使发生故障,也能采用Exactly Once方式处理。 前提条件 PostgreSQL CDC要求Postgre版本为9