在提交导入作业前,可选择设置导入数据的格式,如样例所示,调用ImportJob对象的setStorageType接口设置数据存储类型为csv,数据的具体格式通过调用ImportJob对象的setCsvFormatInfo接口进行设置。 在提交导入作业前,可选择设置导入数据的分区并配置
优先级 当前弹性资源池中的优先级数字越大表示优先级越高。本例设置一条扩缩容策略,默认优先级为1。 1 时间段 首条扩缩容策略是默认策略,不能删除和修改时间段配置。 即设置00-24点的扩缩容策略。 00-24 最小CU 设置扩缩容策略支持的最小CU数。 16 最大CU 当前扩缩容策略支持的最大CU数。
如果开启安全模式,未开启https,需要配置用户名username、密码password,且语法中hosts字段值以http开头。 如果开启安全模式,开启https,需要配置用户名username、密码password、证书位置certificate。请注意该场景hosts字段值以https开头。
'。同时安全组请放开端口8030,8040,9030。 开启HTTPS后,需要在创建表的with子句中添加如下配置参数: 'doris.enable.https' = 'true' 'doris.ignore.https.ca' = 'true' 请在Flink“作业编辑”页面选
同时安全组请放开端口8030, 8040,9030。 开启HTTPS后,需要在创建表的with子句中添加如下配置参数: 'doris.enable.https' = 'true' 'doris.ignore.https.ca' = 'true' 语法格式 create table
安全CSS集群的证书,生成的keystore文件时的密码。 es.net.ssl.truststore.location 安全CSS集群的证书,生成的truststore文件在OBS上的地址。 es.net.ssl.truststore.pass 安全CSS集群的证书,生成的truststore文件时的密码。
同时安全组请放开端口8030, 8040,9030。 开启HTTPS后,需要在创建表的with子句中添加如下配置参数: 'doris.enable.https' = 'true' 'doris.ignore.https.ca' = 'true' 语法格式 create table
Hudi数据表Archive规范 Archive(归档)是为了减轻Hudi读写元数据的压力,所有的元数据都存放在这个路径:Hudi表根目录/.hoodie目录,如果.hoodie目录下的文件数量超过10000就会发现Hudi表有非常明显的读写时延。 规则 Hudi表必须执行Archive。
Delta常见配置参数 提交DLI Spark SQL作业时,在“SQL编辑器”界面右上角的“设置 > 参数设置”中配置Delta参数。 表1 Delta常见配置项 参数 描述 默认值 spark.databricks.delta.retentionDurationCheck.enabled
on表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 生命周期设置后,DLI表和OBS表支持数据备份,OBS表的备份目录需要手工设置。且备份目录应选择在并行文件系统上,备份目录必须和原表目录在同一个
执行Checkpoint机制会影响实时计算性能,配置间隔时间需权衡对业务的性能影响及恢复时长,最好大于Checkpoint的完成时间,建议设置为5分钟。 Exactly Once模式保证每条数据只被消费一次,At Least Once模式每条数据至少被消费一次,请依据业务情况选择。
的参数和示例代码。 前提条件 该场景作业需要建立增强型跨源连接,且用户可以根据实际所需设置相应安全组规则。 如何建立增强型跨源连接,请参考《数据湖探索用户指南》中增强型跨源连接章节。 如何设置安全组规则,请参见《虚拟私有云用户指南》中“安全组”章节。 注意事项 创建Flink OpenSource
表生命周期功能支持Hive、DataSource语法创建表、多版本表,暂不支持跨源表、Carbon表。 生命周期单位为天,取值为正整数。 生命周期只能在表级别设置,不能在分区级设置。为分区表指定的生命周期,适用于该表所有的分区。 语法格式 ALTER TABLE table_name SET TBLPROPERTIES("dli
COLUMN a.b.c ALTER TABLE table1 DROP COLUMNS a.b.c, x, y a.b.c 表示嵌套列全路径,嵌套列具体规则见ADD COLUMNS。 系统响应 通过运行DESCRIBE命令,可查看删除列。 父主题: Schema演进语法说明
Hudi表模型设计规范 规则 Hudi表必须设置合理的主键。 Hudi表提供了数据更新和幂等写入能力,该能力要求Hudi表必须设置主键,主键设置不合理会导致数据重复。主键可以为单一主键也可以为复合主键,两种主键类型均要求主键不能有null值和空值,可以参考以下示例设置主键: SparkSQL: //
SQL读取Hudi表数据。 更多具体使用可参考开源社区文档:Hudi。 注意事项 建议Hudi作为Source表时设置限流 Hudi表作为Source表时,为防止数据上限超过流量峰值导致作业出现异常,建议设置限流(read.rate.limit),限流上限应该为业务上线压测的峰值。 及时对Hudi表进行Compaction,防止Hudi
gzip 存储路径 输入或选择OBS路径。 导出路径必须为OBS桶中不存在的文件夹,即用户需在OBS目标路径后创建一个新文件夹。 文件夹名称不能包含下列特殊字符:\ / : * ? " < > |,并且不能以“.”开头和结尾。 导出方式 导出数据的保存方式。 随导出创建指定路径:指定的
Livy工具。 执行以下命令创建工具安装路径。 mkdir livy安装路径 例如新建路径/opt/livy:mkdir /opt/livy。后续操作步骤均默认以/opt/livy安装路径演示,请根据实际情况修改。 解压工具压缩包到安装路径。 tar --extract --file
DATABASE和SCHEMA在此处是等价的,可互换的,它们有这相同的含义。 该语法用于显示SCHEMA的名称、注释、还有它在文件系统上的根路径。 可选项EXTENDED可以用来显示SCHEMA的数据库属性。 示例 CREATE SCHEMA web; DESCRIBE SCHEMA
using 参数hudi,定义和创建Hudi table。 table_comment 表的描述信息。 location_path OBS路径,指定该路径Hudi表会创建为外表。 options_list Hudi table属性列表。 query_statement select查询表达式
您即将访问非华为云网站,请注意账号财产安全