数据湖探索 DLI-DWS输出流(通过OBS转储方式):关键字
关键字
参数 |
是否必选 |
说明 |
---|---|---|
type |
是 |
输出通道类型,dws表示输出到 数据仓库 服务中。 |
region |
是 |
数据仓库服务所在区域。 |
ak |
是 |
访问密钥ID(Access Key ID)。访问密钥获取方式请参见我的凭证。 |
sk |
是 |
Secret Access Key,与访问密钥ID结合使用的密钥。访问密钥获取方式请参见我的凭证。 |
encode |
是 |
编码方式。当前支持csv和orc两种方式。 |
field_delimiter |
否 |
属性分隔符。当编码方式为csv时需要配置,建议尽量用不可见字符作为分隔符,如\u0006\u0002。 |
quote |
否 |
单字节,建议使用不可见字符,如\u0007。 |
db_obs_server |
否 |
已在数据库中创建的外部服务器,如obs_server。 如何创建外部服务器,具体操作步骤可参考《数据仓库服务数据库开发指南》中创建外部服务器章节。 如果编码方式为orc格式时需指定该参数。 |
obs_dir |
是 |
中间文件存储目录。格式为{桶名}/{目录名}, 如obs-a1/dir1/subdir。 |
username |
是 |
数据库连接用户名。 |
password |
是 |
数据库连接密码。 |
db_url |
是 |
数据库连接地址。格式为/ip:port/database,如 “192.168.1.21:8000/test1”。 |
table_name |
是 |
数据表名,若表不存在,则自动创建。 |
max_record_num_per_file |
是 |
每个文件最多存储多少条记录。当文件记录数少于最大值时,该文件会延迟一个转储周期输出。 |
dump_interval |
是 |
转储周期,单位为秒。 |
delete_obs_temp_file |
否 |
是否要删除obs上的临时文件,默认为“true”,若设置为“false”,则不会删除obs上的文件,需用户自己清理。 |
max_dump_file_num |
否 |
执行一次转储操作时最多转储多少文件。 当本次转储操作发现文件数小于最大值,则会延迟一个转储周期输出。 |