检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
url DDS的连接信息,需要先创建跨源连接,管理控制台操作请参考增强型跨源连接。 创建增强型跨源连接后,使用DDS提供的"随机连接地址",格式为: "IP:PORT[,IP:PORT]/[DATABASE][.COLLECTION][AUTH_PROPERTIES]" 例如:"192
图6 新建Package和类文件 Package根据需要定义,本示例定义为:“com.huawei.demo”,完成后回车。 图7 自定义Package 在包路径下新建Java Class文件,本示例定义为:UDTFSplit。 图8 新建Java Class文件 编写UDTF函数代码。完整样例代码请参考样例代码。
DLI侧创建的Password类型的跨源认证名称。用户若配置该配置项则不用在SQL中配置账号和密码。 分区扫描功能介绍 为了加速Source任务实例中的数据读取,Flink为JDBC表提供了分区扫描功能。以下参数定义了从多个任务并行读取时如何对表进行分区。 scan.partition.column:用于对输入进
OpenTSDB,填写OpenTSDB链接地址。 访问MRS OpenTSDB,若使用增强型跨源连接,填写OpenTSDB所在节点IP与端口,格式为"IP:PORT",OpenTSDB存在多个节点时,用分号间隔。 metric 所创建的DLI表对应的OpenTSDB中的指标名称。 tags
column","name")”指定,name为列名 如果需要保存嵌套的DataFrame,则通过“.option("model","binary")”进行保存 如果需要指定数据过期时间:“.option("ttl",1000)”;秒为单位 读取redis上的数据 1 sparkSession
connector 是 无 string 固定值为:kafka。 topic 是 无 string 结果表对应topic名称。 properties.bootstrap.servers 是 无 string Kafka Broker地址。格式为:host:port,host:port,host:port,以英文逗号(
k作业管理页面查看提交的作业的状态和日志。 如果选择spark版本为2.3.2(即将下线)或2.4.5提交作业时,需要指定Module模块,名称为:sys.datasource.rds。 如果选择Spark版本为3.1.1及以上版本时,无需选择Module模块, 需在 'Spark参数(--conf)'
参数hudi,定义和创建Hudi table。 table_comment 表的描述信息。 location_path OBS路径,指定该路径Hudi表会创建为外表。 options_list Hudi table属性列表。 query_statement select查询表达式 示例 创建分区表 create
Name为您存储时所使用桶名称,filePath为您实际使用的目录名称; 请注意大数据场景建议使用OBS并行文件系统进行存储; multiLevelDirEnable:本例设置为true,表示查询该表时会迭代读取表路径中的所有文件和子目录文件,若不需要此项配置可以设置为false或不设置(默认为false);
Package”,新建Package和类文件。 Package根据需要定义,本示例定义为:“com.dli.demo” 图6 新建Package 在包路径下新建Java Class文件,本示例定义为:AvgFilterUDAFDemo。 图7 创建类 编写UDAF函数代码。UDAF函数实现,主要注意以下几点:
当data-type为set时,Flink中定义的非主键字段的数据类型必须相同。 当data-type为sorted-set并且schema-syntax为fields和array时,只能读取redis的sorted set中的值,而不能读取score。 当data-type为string时,只能有一个非主键字段。
(order_time, 'yyyyMMdd') from orderSource; 配置作业运行参数: 选择队列,并配置Flink版本至少为1.15。 配置权限足够的委托。 配置OBS桶。 开启Checkpoint,使用Hudi时必须开启Checkpoint。 提交作业并检查Flink
本例创建名为table3并以col_2为分区依据的DLI分区表。在OPTIONS中配置pmultiLevelDirEnable和compression。 multiLevelDirEnable:本例设置为true,表示查询该表时会迭代读取表路径中的所有文件和子目录文件,若不需要此项配置可以设置为false或不设置(默认为false);
DLI提供了弹性资源池CU时套餐包。 CU时套餐包的额度会按订购周期重置。 DLI表的数据存储 按需计费 按照存储在DLI服务中的数据存储量(单位为“GB”)收取存储费用。 存储费用=单价*存储数据量(GB)*小时数 存储套餐包 购买了存储量套餐包,按需使用过程中优先抵扣存储套餐包的规格
自定义Spark Jar作业运行的名称。当前定义为:SparkTestMeta。 应用程序 选择步骤6:上传Jar包到OBS和DLI下中上传到DLI程序包。例如当前选择为:“SparkJarMetadata-1.0-SNAPSHOT.jar”。 主类 格式为:程序包名+类名。例如当前为:com
remote.pool-name 否 None String - 为指标加上当前作业所在的弹性资源池名称作为标签。 metrics.reporter.remote.dli-job-id 否 None String - 为指标加上当前作业的DLI Flink作业ID作为标签。 metrics
connector类型,需配置为'gaussdb'。 url 是 无 String jdbc连接地址。 使用gsjdbc4驱动连接时,格式为:jdbc:postgresql://${ip}:${port}/${dbName} 。 使用gsjdbc200驱动连接时,格式为:jdbc:gaus
从IAM服务获取的用户Token。 Accept 是 默认值application/json。 Content-Type 是 指定类型为application/json。 charset 是 指定编码格式为utf8。 请求参数如表3所示。 表3 请求参数说明 参数 是否必选 参数类型 说明 cluster_name
指定为false将导致新写入的分区无法同步到Hive Metastore中。由于缺失新写入的分区信息,查询引擎读取该时会丢数。 禁止指定Hudi的索引类型为INMEMORY类型。 该索引仅是为了测试使用。生产环境上使用该索引将导致数据重复。 建表示例 create table data_partition(id
Flink SQL样例模板列表参数 参数 参数说明 名称 模板名称,只能由英文、中文、数字、中划线和下划线组成,并且长度为1~64个字符。 描述 模板的相关描述,且长度为0~512个字符。 操作 “创建作业”:直接在该模板下创建作业,创建完后,系统跳转到“作业管理”下的作业编辑页面。 Flink