检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
db_url 是 数据库连接地址,格式为:"{database_type}://ip:port/database" 目前支持两种数据库连接:MySQL和PostgreSQL MySQL: 'mysql://ip:port/database' PostgreSQL: 'postgresql://ip:port/database'
illegal_data_table 否 如果指定该参数,异常数据(比如:rowKey不存在)会写入该表(rowKey为taskNo加下划线加时间戳加六位随机数字,schema为info:data, info:reason),否则会丢弃。 batch_insert_data_num 否
WHEN value2_1 [, value2_2 ]* THEN result2 ]* [ ELSE resultZ ] END 当第一个时间值包含在 (valueX_1, valueX_2, …) 中时,返回 resultX。当没有值匹配时,如果提供则返回 result_z, 否则返回
keystore.jks文件和truststore.jks文件,并将其上传至OBS桶中。 开发说明-https off 如果没有开启https访问的话,不需要去生成keystore.jks和truststore.jks文件的,只需要设置好ssl访问和账号密码参数即可。 构造依赖信息,创建SparkSession
s:secretVersion:list。 DEW解密凭据的权限,kms:dek:decrypt。 委托权限示例请参考自定义DLI委托权限和常见场景的委托权限策略。 仅支持Spark3.3.1(Spark通用队列场景)及以上版本使用DEW管理访问凭据,在创建作业时,请配置作业使用Spark3
查找缓存的最大行数,超过此值,最旧的行将被删除。 如需启用缓存配置则“cache.max-rows”和“cache.ttl”选项都必须指定。 lookup.cache.ttl 10 s N 缓存生存时间。 lookup.max-retries 3 N 查找数据库失败时的最大重试次数。 示例
cache_max_num 否 表示最大缓存的查询结果数,默认值为32768。 cache_time 否 表示数据库查询结果在内存中缓存的最大时间。单位为毫秒,默认值为10000,当值为0时表示不缓存。 注意事项 不支持Redis集群。 请务必确保您的账户下已在分布式缓存服务(DCS)里创建了Redis类型的缓存实例。
buffer-flush.max-rows 否 每次刷新数据的最大条数 connector.write.buffer-flush.interval 否 刷新时间,默认值为0s,如2s connector.rowkey 否 设置复合rowkey,即根据多个字段设置。 形如:rowkey1:3,rowkey2:3
buffer-flush.max-rows 否 每次刷新数据的最大条数 connector.write.buffer-flush.interval 否 刷新时间,默认值为0s,如2s connector.rowkey 否 设置复合rowkey,即根据多个字段设置。 形如:rowkey1:3,rowkey2:3
// SASL_SSL相关配置项。设置jaas账号和密码,username和password为创建Kafka实例过程中开启SASL_SSL时填入的用户名和密码, // 或者创建SASL_SSL用户时设置的用户名和密码。格式如下, // org.apache
“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。 认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险,建议使用DEW管理凭证。配置文件或者环境变量中密文存放,使用时解密,确保安全。Flink
'passwdauth'='######'//DLI侧创建的Password类型的跨源认证名称。使用跨源认证则无需在作业中配置账号和密码。 )" ) 表1 创建表参数 参数 说明 url DWS的连接地址,需要先创建跨源连接,管理控制台操作请参考《数据湖探索用户指南》。
object 作业更新信息。具体请参考表4。 表4 job参数说明 参数名称 是否必选 参数类型 说明 update_time 否 Long 作业更新时间,单位为毫秒。 请求示例 更新Flink Jar作业信息,更新后作业名称为test1,作业执行的队列为testQueue,关闭作业日志。 {
non_equi_join_condition number partition_col_name partition_col_value partition_specs property_name property_value regex_expression result_expression select_statement
每批次插入的数据记录数,默认为100。如果在插入过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。 timeout 连接redis的超时时间,单位ms,默认值2000(2秒超时)。 访问DCS时,不支持复杂类型数据(Array、Struct、Map等)。 可以考虑以下几种方式进行复杂类型数据处理:
每批次插入的数据记录数,默认为100。如果在插入过程中,redis集群中的CPU使用率还有提升空间,可以调大该参数。 timeout 连接redis的超时时间,单位ms,默认值2000(2秒超时)。 访问DCS时,不支持复杂类型数据(Array、Struct、Map等)。 可以考虑以下几种方式进行复杂类型数据处理:
com:3306/postgreDB dbtable 访问MySQL集群填写"数据库名.表名",访问PostGre集群填写"模式名.表名"。 说明: 如果数据库和表不存在,请先创建数据库和表,否则系统会报错并且运行失败。 user RDS数据库用户名。 password RDS数据库用户名对应密码。 driver
output_format_classname partition_col_name partition_col_value partition_specs property_name property_value regex_expression result_expression row_format
SERDEPROPERTIES:Serde属性。 参数说明 表1 参数描述 参数 描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。 注意事项 该命令的主要应用场景是针对分区表,如当手动在OBS上面添加分区目录时,再通过上
SERDEPROPERTIES:Serde属性。 参数说明 表1 参数描述 参数 描述 table_name 表名称。 partition_specs 分区字段。 obs_path OBS存储路径。 注意事项 该命令的主要应用场景是针对分区表,如当手动在OBS上面添加分区目录时,再通过上