检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
队列相关 约束限制 当前使用SDK创建的作业不支持在default队列上运行。 查询所有队列 DLI提供查询队列列表接口,您可以使用该接口并选择相应的队列来执行作业。示例代码如下: 1 2 3 4 5 6 7 8 9 def list_all_queues(dli_client):
修改列注释 功能描述 修改非分区表或分区表的列注释信息。 语法格式 ALTER TABLE [db_name.]table_name CHANGE COLUMN col_name col_name col_type COMMENT 'col_comment'; 关键字 CHANGE
DLI表数据的生命周期管理功能(dli.lifecycle.days),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)DLI自动回收。这个指定的时间就是生命周期。生命周期管理功能方便您释放存储空间,简化回收数据的流程。同时提供数据备份与恢复功能,避免因误操作丢失数据。
default String Hive的数据库名。 hive_sync.support_timestamp 否 true Boolean 是否支持时间戳。 建议值为True。 changelog.enabled 否 false Boolean 是否写入changelog消息。 默认值为false,CDC场景填写为true。
添加作业运行的队列到弹性资源池。具体内容包括: 设置弹性资源池队列的名称、队列类型等基本信息。 配置当前队列的扩缩容策略,包括队列策略的优先级、时间段、最大最小CU范围等配置。 创建弹性资源池并添加队列 调整弹性资源池中队列的扩缩容策略 (可选)步骤三:创建增强型跨源连接 如果运行的作
作业ID。 owner 是 String 提交作业的用户。 start_time 是 Long 作业开始的时间。是单位为“毫秒”的时间戳。 duration 是 Long 作业执行的时间间隔,单位毫秒。 export_mode 否 String 导出数据或保存查询结果时,指定的导出模式。
able.OpenTSDB/MRS.OpenTSDB/DWS/RDS/CSS)。 create_time 否 Long 创建连接的时间。为UTC的时间戳。 available_queue_info 否 Array of Objects 各个队列创建跨源连接的信息,详细信息请参考表3。
表的信息。具体参数请参见表4。 表4 tables参数 参数名称 是否必选 参数类型 说明 create_time 是 Long 表创建时间。是单位为“毫秒”的时间戳。 data_type 否 String 所列OBS表数据的类型,目前支持:parquet、ORC、CSV、JSON、Avro格式。
响应参数 响应参数如表2所示。 表2 响应参数说明 参数 是否必选 参数类型 说明 create_time 是 Long 创建集群的时间。是单位为“毫秒”的时间戳。 description 否 String 集群的描述信息。 cu_count 是 Integer 与集群绑定的计算单元个数。
table_name Database中的表名,由字母、数字和下划线(_)组成。 timestamp_expression 时间戳,不能晚于当前时间,格式'yyyy-MM-ddTHH:mm:ss.SSS' version_code 1.3.1中查询结果中的版本号 示例 SELECT
相关组件都运行在容器中,通过下载DLI提供的自定义镜像,可以改变Spark作业和Flink作业的容器运行环境。例如,在自定义镜像中加入机器学习相关的Python包或者C库,可以通过这种方式方便地帮助用户进行功能扩展。 发布区域:全部 创建自定义镜像
使用CDM迁移数据到DLI,迁移作业日志上报UQUERY_CONNECTOR_0001:Invoke DLI service api failed错误 问题现象 在CDM迁移数据到DLI,迁移作业提交后,在CDM作业迁移日志中查看作业执行失败,具体日志有如下报错信息: org.apache
事实表通常整表数据规模较大,以新增数据为主,更新数据占比小,且更新数据大多落在近一段时间范围内(年或月或天),下游读取该表进行ETL计算时通常会使用时间范围进行裁剪(例如最近一天、一月、一年),这种表通常可以通过数据的创建时间来做分区以保证最佳读写性能。 维度表数据量一般整表数据规模较小,以更新
Database中的表名,由字母、数字和下划线(_)组成。 obs_path Obs路径,表示Delta表的存储位置。 timestamp_expression 时间戳,不能晚于当前时间,格式'yyyy-MM-ddTHH:mm:ss.SSS' version_code 1.3.1中查询结果中的版本号 示例 RESTORE
展开为array(T)。 ngrams(array(T), n) -> array(array(T)) 描述:返回数组的n元语法(相邻n个元素的子序列)。结果中n元语法的顺序未指定。 SELECT ngrams(ARRAY['foo', 'bar', 'baz', 'foo'], 2);
证数据不重复,建议使用带主键数据库或者文件系统作为目标数据源,否则下游处理业务需要加上去重逻辑(最新成功Checkpoint记录位点到异常时间段内的数据会重复消费)。 图1 Flink作业配置参数 对于Flink Jar作业,您需要在代码中开启Checkpoint,同时如果有自定
Flink Opensource SQL如何解析复杂嵌套 JSON? Flink Opensource SQL从RDS数据库读取的时间和RDS数据库存储的时间为什么会不一致? Flink Opensource SQL Elasticsearch结果表failure-handler参数
table,path须选填其中之一 timestamp 在op指定为“run”时,可以指定timestamp来执行该时间戳对应的compaction计划以及该时间戳之前未执行的compaction计划 否 示例 call run_compaction(table => 'hudi_table1'
时请注意开启checkpoint。 扩缩容检测周期不要设置过小,避免频繁启停作业。 扩缩容作业恢复过程中的时间长短受savepoint的大小影响,如果保存点较大,可能恢复时间较慢。 如果需要调整动态扩缩容的配置项,则需要停止作业进行编辑,并提交运行才能生效。 操作步骤 Flink作业动态扩缩容适用于Flink
怎样判断当前DLI队列中的作业是否有积压? 问题描述 需要查看DLI的队列中作业状态为“提交中”和“运行中”的作业数,判断当前队列中的作业是否有积压。 解决方案 可以通过“云监控服务 CES”来查看DLI队列中不同状态的作业情况,具体操作步骤如下: 在控制台搜索“云监控服务 CES”,进入云监控服务控制台。