检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
lookup.cache.max-rows 否 无 Integer 维表配置,缓存的最大行数,超过该值时,最先添加的数据将被标记为过期。 默认表示不使用该配置。 lookup.cache.ttl 否 无 Duration 维表配置,缓存超时时间,超过该时间的数据会被剔除。格式为:{length
通过Spark Datasource API或者Flin写Hudi表的场景,通过这两种方式写Hudi时需要增加向Hive同步元数据的配置项;该配置的目的是将Hudi表的元数据统一托管到Hive元数据服务中,为后续的跨引擎操作数据以及数据管理提供便利。 父主题: Hudi数据表设计规范
文件的footer中。 Bucket索引:在写入数据过程中,通过主键进行Hash计算,将数据进行分桶写入;该索引写入速度最快,但是需要合理配置分桶数目;Flink、Spark均支持该索引写入。 状态索引:Flink引擎独有索引,是将行记录的存储位置记录到状态后端的一种索引形式,在
管理作业 DLI配置SparkUI只展示最新的100条作业信息。 控制台界面查询结果最多显示1000条作业结果数据,如果需要查看更多或者全量数据,则可以通过该功能将数据导出到OBS获取。 导出作业运行日志需要具有OBS桶的权限,请提前在“全局配置 > 工程配置”页面配置DLI作业桶。
扩容。 添加到同一个弹性资源池的多个队列,CU资源可以共享,达到资源的合理利用。 配置跨源时,必须为每个队列分配不重合的网段,占用大量VPC网段。 多队列通过弹性资源池统一进行网段划分,减少跨源配置的复杂度。 资源调配 多个队列同时扩容时不能设置优先级,在资源不够时,会导致部分队列扩容申请失败。
Kafka,请确保被监控表的REPLICA IDENTITY 已经被配置成FULL ,默认值是DEFAULT。 否则,Flink SQL将无法正确解析Debezium数据。 当配置为 FULL 时,更新和删除事件将完整包含所有列的之前的值。 当为其他配置时,更新和删除事件的“before”字段将只包含primary
external.table.purge 否 仅OBS表支持配置该参数。 是否需要在删除表或分区时,清除path路径下的数据。默认不删除。 设置'external.table.purge'='true'时: 非分区OBS表配置删除文件后,表目录也会删除。 分区OBS表自定义分区数据也会删除。
DLI Flink MRS Flink 特色能力 产品模式 全托管(无需人力运维集群) 半托管(需要人力运维集群) 弹性扩缩容 支持集群容器化部署。 用户可以根据业务负载进行弹性扩缩容,能够基于作业的负载动态调整作业使用资源大小。 支持基于作业优先级动态调整作业的使用资源。 仅支持YARN集群。
s 是 Array of objects 该队列在该弹性资源池下的扩缩容策略信息。单条策略信息包含时间段、优先级和CU范围。每个队列至少要配置一条时间段为[00:00, 24:00]的默认扩缩容策略。详细参数说明请参考表3。 表3 queue_scaling_policies 参数
使用BI工具连接DLI分析数据 BI工具连接DLI方案概述 配置DBeaver连接DLI进行数据查询和分析 配置DBT连接DLI进行数据调度和分析 配置YongHong BI连接DLI进行数据查询和分析 配置PowerBI通过Kyuubi连接DLI进行数据查询和分析 配置Fine BI通过Kyuubi连接DLI进行数据查询和分析
实例”,获取ZooKeeper角色实例的IP地址。 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 配置 > 全部配置”,搜索参数“clientPort”,获取“clientPort”的参数值即为ZooKeeper的端口。 zookeeper.znode
实例”,获取ZooKeeper角色实例的IP地址。 在MRS Manager上,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 配置 > 全部配置”,搜索参数“clientPort”,获取“clientPort”的参数值即为ZooKeeper的端口。 zookeeper.znode
ClickHouse > 服务配置”,角色选择“ClickHouseBalancer”。当MRS集群未开启Kerberos认证时,搜索“lb_http_port”配置参数值,默认值为21425;当开启Kerberos认证时,搜索“lb_https_port”配置参数值,默认值为21426。
Flink完成电商业务实时数据的分析处理。 配置DBeaver连接DLI进行数据查询和分析 介绍DBeaver连接DLI并提交SQL查询的操作步骤。 配置DBT连接DLI进行数据调度和分析 介绍使用DBT提交DLI作业的操作步骤。 配置YongHong BI连接DLI进行数据查询和分析
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password
save(basePath) 无分区 配置项 说明 hoodie.datasource.write.partitionpath.field 配置为空字符串。 hoodie.datasource.hive_sync.partition_fields 配置为空字符串。 hoodie.datasource
enabled 否 true Boolean Flink默认采用的是内存索引(使用Bueckt索引时不配置该项),需要将数据的主键缓存到内存中,保证目标表的数据唯一,因此需要配置该值,否则会导致数据重复,默认值:true。 write.index_bootstrap.tasks 否
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password
登录DLI管理管理控制台。 选择“作业管理 > Flink作业”。 单击作业名称进入作业详情页面。 选择“作业配置信息 > 资源配置” 查看作业的CU数量,即作业占用资源总CUs数。 该CUs数可以编辑作业页面进行配置,CUs数量 = 管理单元 + (算子总并行数 / 单TM Slot数) * 单TM所占CUs数。
是否仅通过域名访问es节点,默认为false。使用经典型跨源的连接地址作为es.nodes时,该参数需要配置为true;使用css服务提供的原始内网IP地址作为es.nodes时,不需要填写该参数或者配置为false。 es.mapping.id 指定一个字段,其值作为es中Document的id。