正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Ogg Format 功能描述 Oracle GoldenGate (a.k.a ogg) 是一个实现异构 IT 环境间数据实时数据集成和复制的综合软件包。 该产品集支持高可用性解决方案、实时数据集成、事务更改数据捕获、运营和分析企业系统之间的数据复制、转换和验证。Ogg 为变更日志提供了统一的格式结构
创建Hbase维表 功能描述 创建Hbase维表用于与输入流连接。 前提条件 该场景作业需要运行在DLI的独享队列上,因此要与HBase建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则
从Kafka读取数据写入到Elasticsearch 本指导仅适用于Flink 1.12版本。 场景描述 本示例场景对用户购买商品的数据信息进行分析,将满足特定条件的数据结果进行汇总输出。购买商品数据信息为数据源发送到Kafka中,再将Kafka数据的分析结果输出到Elasticsearch
Redis维表 功能描述 创建Redis表作为维表用于与输入流连接,从而生成相应的宽表。 前提条件 要建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南
MySQL CDC源表 功能描述 MySQL的CDC源表,即MySQL的流式源表,会先读取数据库的历史全量数据,并平滑切换到Binlog读取上,保证数据的完整读取。 前提条件 MySQL CDC要求MySQL版本为5.7或8.0.x。 该场景作业需要DLI与MySQL建立增强型跨源连接
实时聚类 聚类算法是非监督算法中非常典型的一类算法,经典的K-Means算法通过提前确定类别数目,计算数据点之间的距离来分类。对于离线静态数据集,我们可以依赖领域中知识来确定类别数目,运行K-Means算法可以取得比较好的聚类效果。但是对于在线实时流数据,数据是在不断变化和演进,类别数目极有可能发生变化
CREATE TABLE语句 功能描述 根据指定的表名创建一个表,如果同名表已经在 catalog 中存在了,则无法注册。 语法定义 CREATE TABLE [IF NOT EXISTS] [catalog_name.][db_name.]table_name ( {
自拓展输入流 用户可通过编写代码实现从想要的云生态或者开源生态获取数据,作为Flink作业的输入数据。 语法格式 1 2 3 4 5 6 7 CREATE SOURCE STREAM stream_id (attr_name attr_type (',' attr_name attr_type
Canal Format 功能描述 Canal是一个 CDC(ChangeLog Data Capture,变更日志数据捕获)工具,可以实时地将 MySQL 变更传输到其他系统。Canal 为变更日志提供了统一的数据格式,并支持使用 JSON 或 protobuf序列化消息(Canal
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 自定义函数仅能在独享队列中使用,不支持在共享队列中使用
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 自定义函数仅能在独享队列中使用,不支持在共享队列中使用
自定义函数 概述 DLI支持三种自定义函数: UDF:自定义函数,支持一个或多个输入参数,返回一个结果值。 UDTF:自定义表值函数,支持一个或多个输入参数,可返回多行多列。 UDAF:自定义聚合函数,将多条记录聚合成一个值。 自定义函数仅能在独享队列中使用,不支持在共享队列中使用
Redis源表 功能描述 创建source流从Redis获取数据,作为作业的输入数据。 前提条件 创建该作业前,需要建立DLI和Redis的增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则
Spark开源命令支持说明 本章节介绍了目前DLI对开源的Spark SQL语法的支持情况。详细的语法、参数说明,示例等信息请参考Spark官方文档。 表1 DLI Spark开源命令支持说明 功能描述 语法示例 DLI Spark 2.4.5 DLI Spark 3.3.1 创建数据库
Elasticsearch结果表 功能描述 DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch中。Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等
decode1 decode1函数实现if-then-else分支选择的功能。 命令格式 decode1(<expression>, <search>, <result>[, <search>, <result>]...[, <default>]) 参数说明 表1 参数说明 参数
decode1 decode1函数实现if-then-else分支选择的功能。 命令格式 decode1(<expression>, <search>, <result>[, <search>, <result>]...[, <default>]) 参数说明 表1 参数说明 参数
pyspark样例代码 开发说明 mongo只支持增强型跨源。只能使用包年包月队列。 DDS即文档数据库服务,兼容MongoDB协议。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年/包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险
使用自定义镜像增强作业运行环境 自定义镜像应用场景 通过下载DLI提供的基础镜像再按需制作自定义镜像,将作业运行需要的依赖(文件、jar包或者软件)、私有能力等内置到自定义镜像中,以此改变Spark作业和Flink作业的容器运行环境,增强作业的功能、性能。 例如,在自定义镜像中加入机器学习相关的
pyspark样例代码 开发说明 redis只支持增强型跨源。只能使用包年包月队列。 前提条件 在DLI管理控制台上已完成创建增强跨源连接,并绑定包年包月队列。具体操作请参考《数据湖探索用户指南》。 认证用的password硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放