检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
和parquet时需配置,表明一个文件最多存储记录数,当达到最大值,则另起新文件。 dump_interval 否 触发周期, 当编码格式为orc或者配置了DIS通知提醒时需进行配置。 在orc编码方式中,该配置表示周期到达时,即使文件记录数未达到最大个数配置,也将文件上传到OBS上。
参数填写完成后,单击“立即购买”,在界面上确认当前配置是否正确。 单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。
盖了全量数据而不是预期的分区数据,这可能是因为动态分区覆盖功能没有被启用。 如果需要动态覆盖DataSource表指定的分区数据,您需要先配置参数 dli.sql.dynamicPartitionOverwrite.enabled=true,然后通过insert overwrite语句实现。
来对传输中的数据进行加密。 Spark作业传输通信加密 Spark作业支持通过配置表1中的参数开启通信加密。 请确保已上传密钥和证书到指定的OBS路径下,并在作业配置中的其他依赖文件中引入。 表1 Spark作业传输开启通信加密配置项 参数 说明 配置示例 spark.network.crypto.enabled
参数填写完成后,单击“立即购买”,在界面上确认当前配置是否正确。 单击“提交”完成弹性资源池的创建。 在弹性资源池的列表页,选择要操作的弹性资源池,单击操作列的“添加队列”。 配置队列的基础配置,具体参数信息如下。 表3 弹性资源池添加队列基础配置 参数名称 参数说明 配置样例 名称 弹性资源池添加的队列名称。
start_time 否 kafka数据读取起始时间。 当该参数配置时则从配置的时间开始读取数据,有效格式为yyyy-MM-dd HH:mm:ss。start_time要不大于当前时间,若大于当前时间,则不会有数据读取出。 该参数配置后,只会读取Kafka topic在该时间点后产生的数据。
* 否 无 String 设置和传递任意 Kafka 的配置项。 “properties.”中的后缀名必须匹配在Apache Kafka中定义的配置键。 Flink 将移除 "properties." 配置键前缀并将变换后的配置键和值传入底层的 Kafka 客户端。例如,您可以通过
设置SQL作业优先级 在“ 设置 > 参数配置”中配置如下参数,其中x为优先级取值。 spark.sql.dli.job.priority=x 登录DLI管理控制台。 单击“作业管理 > SQL作业”。 选择待配置的作业,单击操作列下的编辑。 在“ 设置 > 参数配置”中配置spark.sql.dli
Opensource SQL作业优先级 登录DLI管理控制台。 单击“作业管理 > Flink作业”。 选择要待配置的作业,单击操作列下的编辑。 单击“自定义配置”。 在“自定义配置”中输入如下语句,先开启动态扩缩容功能,再设置作业优先级。 对于Flink作业,必须先设置flink.dli
OpenSource SQL作业。 单击操作列的“编辑”,进入作业编辑页面。 在右侧的“运行参数”配置区域,选择新的Flink版本。 使用Flink 1.15以上版本的引擎执行作业时,需要在自定义配置中配置委托信息,其中key为"flink.dli.job.agency.name",valu
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password
用户安全集群的新登录密码。 krb5_conf 否 String krb5配置文件obs路径。 keytab 否 String keytab配置文件obs路径。 truststore_location 否 String truststore配置文件obs路径。 truststore_password
SMN服务的主题URN,用于静态主题URN配置。作为消息通知的目标主题,需要提前在SMN服务中创建。 与“urn_column”配置两者至少存在一个,同时配置时,“topic_urn”优先级更高。 urn_column 否 主题URN内容的字段名,用于动态主题URN配置。 与“topic_urn”配置两者至少存
SMN服务的主题URN,用于静态主题URN配置。作为消息通知的目标主题,需要提前在SMN服务中创建。 与“urn_column”配置两者至少存在一个,同时配置时,“topic_urn”优先级更高。 urn_column 否 主题URN内容的字段名,用于动态主题URN配置。 与“topic_urn”配置两者至少存
如何合并小文件 使用SQL过程中,生成的小文件过多时,会导致作业执行时间过长,且查询对应表时耗时增大,建议对小文件进行合并。 设置配置项。 spark.sql.shuffle.partitions = 分区数量(即此场景下最终生成的文件数量) 执行SQL。 INSERT OVERWRITE
on: Message stream modified (41) 解决方案 编辑“krb5.conf” 配置文件,将文件中所有“renew_lifetime = xxx”配置删除。重新创建和提交Spark作业。 父主题: 对接HBase
当该参数配置时则从配置的时间开始读取数据,有效格式为yyyy-MM-dd HH:mm:ss。 当没有配置start-time也没配置offset的时候,读取最新数据。 connector. enable-checkpoint 否 是否启用checkpoint功能,可配置为true(启用)或者false(停用),
通用队列类型:用于运行Flink和Spark Jar作业。 其他参数请根据需要配置。 图3 添加队列 配置完基本参数后,单击“下一步”,在队列的扩缩容策略配置界面,修改扩缩容策略配置:最小CU:64、最大CU:64。 图4 队列扩缩容策略配置 单击“确定”完成添加队列操作。 (可选)步骤三:创建增强型跨源连接
ency中。需要您创建自定义委托,并将委托配置在作业中(使用Flink 1.15和Spark 3.3及以上版本的引擎执行作业时需要配置)。 了解dli_management_agency请参考DLI委托概述。 创建自定义委托并在作业中配置委托的操作步骤请参考自定义DLI委托权限。
TaskManager配置 用于设置TaskManager资源参数。 勾选后需配置下列参数: “单TM所占CU数”:每个TaskManager占用的资源数量。 “单TM Slot”:每个TaskManager包含的Slot数量。 不勾选该参数,,系统自动按照默认值为您配置。 “单TM所占CU数”:默认值为1。