数据湖探索 DLI-DIS输入流:关键字
关键字
参数 |
是否必选 |
说明 |
---|---|---|
type |
是 |
数据源类型,“dis”表示数据源为 数据接入服务 。 |
region |
是 |
数据所在的DIS区域。 |
ak |
否 |
访问密钥ID(Access Key ID)。访问密钥获取方式请参见我的凭证。 |
sk |
否 |
Secret Access Key,与访问密钥ID结合使用的密钥。访问密钥获取方式请参见我的凭证。 |
channel |
是 |
数据所在的DIS通道名称。 |
partition_count |
否 |
数据所在的DIS通道分区数。该参数和partition_range参数不能同时配置。当该参数没有配置的时候默认读取所有partition。 |
partition_range |
否 |
指定作业从DIS通道读取的分区范围。该参数和partition_count参数不能同时配置。当该参数没有配置的时候默认读取所有partition。 partition_range = "[0:2]"时,表示读取的分区范围是1-3,包括分区1、分区2和分区3。 |
encode |
是 |
数据编码格式,可选为“csv”、“json”、“xml”、“email”、“blob”和“user_defined”。
|
field_delimiter |
否 |
属性分隔符,仅当编码格式为csv时该参数需要填写,例如配置为“,”。 |
quote |
否 |
可以指定数据格式中的引用符号,在两个引用符号之间的属性分隔符会被当做普通字符处理。
说明:
|
json_config |
否 |
当编码格式为json时,用户需要通过该参数来指定json字段和流定义字段的映射关系,格式为“field1=data_json.field1; field2=data_json.field2; field3=$”,其中field3=$表示field3的内容为整个json串。 |
xml_config |
否 |
当编码格式为xml时,用户需要通过该参数来指定xml字段和流定义字段的映射关系,格式为“field1=data_xml.field1; field2=data_xml.field2”。 |
email_key |
否 |
当编码格式为email时,用户需要通过该参数来指定需要提取的信息,需要列出信息的key值,需要与流定义字段一一对应,多个key值时以逗号分隔,例如“Message-ID, Date, Subject, body”,其中由于邮件正文没有关键字, DLI 规定其关键字为“body”。 |
encode_class_name |
否 |
当encode为user_defined时,需配置该参数,指定用户自实现解码类的类名(包含完整包路径),该类需继承类DeserializationSchema。 |
encode_class_parameter |
否 |
当encode为user_defined时,可以通过配置该参数指定用户自实现解码类的入参,仅支持一个string类型的参数。 |
offset |
否 |
|
start_time |
否 |
DIS数据读取起始时间。
|
enable_checkpoint |
否 |
是否启用checkpoint功能,可配置为true(启用)或者false(停用), 默认为false。 |
checkpoint_app_name |
否 |
DIS服务的消费者标识,当不同作业消费相同通道时,需要区分不同的消费者标识,以免checkpoint混淆。 |
checkpoint_interval |
否 |
DIS源算子做checkpoint的时间间隔,单位秒,默认为60。 |
- 如何在测试计划服务中使用关键字?
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 华为云CodeArts API_API测试_接口测试_关键字
- 什么是域名转入-域名如何转入-域名转入需要多久-域名转入价格-域名转入流程
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- 什么是弹性资源池_数据湖探索DLI弹性资源池
- 什么是跨源连接-数据湖探索DLI跨源连接
- 域名转入-域名如何转入-域名转入需要多长时间-域名转入价格-域名转入流程
- 什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource SQL
- 流水线部署_流水线服务CodeArts Pipeline_流水线-华为云