检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
最新动态 本文介绍了数据湖探索DLI各特性版本的功能发布和对应的文档动态,新特性将在各个区域(Region)陆续发布,欢迎体验。 2020年8月 序号 功能名称 功能描述 阶段 相关文档 1 集成TPC-H测试套件 用户可以通过DLI内置的TPC-H测试套件进行简单高效的交互式查
SQL作业单击“自定义配置”,配置动态扩缩容参数。 Flink Jar作业单击“优化参数”框,配置动态扩缩容参数。 表1 动态扩缩容参数说明 名称 默认值 描述 flink.dli.job.scale.enable false 该配置表示是否开启动态扩缩的功能,即是否允许根据作业的
Flink SQL作业Kafka分区数增加或减少,怎样不停止Flink作业实现动态感知? 问题描述 用户执行Flink Opensource SQL, 采用Flink 1.10版本。初期Flink作业规划的Kafka的分区数partition设置过小或过大,后期需要更改Kafka区分数。
dynamicPartitionOverwrite.enabled”默认值为“false”,对于DataSource表,表示动态插入覆盖整表数据,为“true”表示覆盖指定分区数据。 说明: 对于Hive分区表的动态覆盖写,仅支持覆盖涉及到的分区数据,不支持覆盖整表数据。 表3 日期及时间模式字符定义 模式字符
源表上的SELECT查询(支持DLI表、OBS表)。 values_row 想要插入到表中的值,列与列之间用逗号分隔。 注意事项 表必须已经存在。 如果动态分区不需要指定分区,则将“part_spec”作为普通字段放置SELECT语句中。 被插入的OBS表在建表时只能指定文件夹路径。 源表和目
当您使用insert overwrite语句覆盖分区表的数据时,如果发现它覆盖了全量数据而不是预期的分区数据,这可能是因为动态分区覆盖功能没有被启用。 如果需要动态覆盖DataSource表指定的分区数据,您需要先配置参数 dli.sql.dynamicPartitionOverwrite
dynamicPartitionPruning.enabled true 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。
了解数据目录、数据库和表 数据库和表是SQL作业、Spark作业场景开发的基础,在执行作业前您需要根据业务场景定义数据库和表。 Flink支持动态数据类型,可以在运行时定义数据结构,不需要事先定义元数据。 数据目录 数据目录(Catalog)是元数据管理对象,它可以包含多个数据库。
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
半托管(需要人力运维集群) 弹性扩缩容 支持集群容器化部署。 用户可以根据业务负载进行弹性扩缩容,能够基于作业的负载动态调整作业使用资源大小。 支持基于作业优先级动态调整作业的使用资源。 仅支持YARN集群。 上下游数据连接 除了开源connector之外,还提供开箱即用的conn
如果未指定主键,Elasticsearch 将自动生成文档ID。 动态索引 Elasticsearch sink同时支持静态索引和动态索引。 如果您想使用静态索引,则index选项值应为纯字符串,例如 'myusers',所有记录都将被写入到“myusers”索引中。 如果您想使用动态索引,您可以使用 {field_name}
在“自定义配置”中输入如下语句,先开启动态扩缩容功能,再设置作业优先级。 对于Flink作业,必须先设置flink.dli.job.scale.enable=true开启动态扩缩容功能,再设置作业优先级。 开启动态扩缩容的更多参数设置请参考开启Flink作业动态扩缩容。 flink.dli
dynamicPartitionPruning.enabled true 该配置项用于启用或禁用动态分区修剪。在执行SQL查询时,动态分区修剪可以帮助减少需要扫描的数据量,提高查询性能。 配置为true时,代表启用动态分区修剪,SQL会在查询中自动检测并删除那些不满足WHERE子句条件的分区,适用于在处理具有大量分区的表时。
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 password :默认管理员用户的密码。 在命令行窗口输
管理Flink作业 查看Flink作业详情 设置Flink作业优先级 开启Flink作业动态扩缩容 查询Flink作业日志 Flink作业常用操作 父主题: 使用DLI提交Flink作业
SQL队列 通用队列 单用户单队列独享资源 无法动态调整,资源可能会闲置 废弃,不推荐使用 为了方便您理解DLI不同计算资源模式的适用场景,我们把购买DLI计算资源比作用车服务: 弹性资源池模式可以比作“租车”,您可以根据实际需求动态调整资源的规模。 这种模式适合于业务需求波动较大
Elasticsearch结果表同时支持静态索引和动态索引。 如果使用静态索引,则索引选项值应为纯字符串,例如myusers,所有记录都将被写入myusers索引。 如果使用动态索引,可以使用{field_name}引用记录中的字段值以动态生成目标索引。您还可以使用 {field_na
为集群“公网访问地址”或“公网访问域名”,如果通过内网地址连接,请指定为集群“内网访问地址”或“内网访问域名”。如果通过弹性负载均衡连接,请指定为“弹性负载均衡地址”。 dbadmin:创建集群时设置的默认管理员用户名。 -W:默认管理员用户的密码。 在命令行窗口输入以下命令创建数据库“testdwsdb”。
高数据处理流程效率。 提升OBS committer小文件写性能 提升对象存储服务(OBS)在处理小文件写入时的性能,提高数据传输效率。 动态Executor shuffle数据优化 提升资源扩缩容的稳定性,当shuffle文件不需要时清理Executor。 支持配置小文件合并
tsdb-values”个数相同。 多个metric请使用“;”分隔。 connector.tsdb-timestamps 是 数据点的timestamp,仅支持指定动态列。 数据类型支持int、bigint、string,仅支持数据形式。 其个数需要为1或者和“connector.tsdb-values”的个数相同。