检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行SQL作业时产生数据倾斜怎么办? 什么是数据倾斜? 数据倾斜是在SQL作业执行中常见的问题,当数据分布不均匀的情况下,一部分计算节点处理的数据量远大于其他节点,从而影响整个计算过程的处理效率。 例如观察到SQL执行时间较长,进入SparkUI查看对应SQL的执行状态,如图1所
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
parallelism 否 无 int 定义查找联接运算符的自定义并行度。默认情况下,如果未定义此选项,则规划器将通过考虑全局配置(如果定义了选项“lookup.parallelism”)来推导并行度,否则将考虑输入运算符的并行度。 lookup.batch.interval 否 1s Duration
写入到数据库失败后的最大重试次数。 sink.parallelism 否 无 Integer 用于定义JDBC sink算子的并行度。默认情况下,并行度是由框架决定,即与上游并行度一致。 分区扫描功能介绍 为了加速Source任务实例中的数据读取,Flink为JDBC表提供了分区扫描功能。以下参
源的合理利用。 配置跨源时,必须为每个队列分配不重合的网段,占用大量VPC网段。 多队列通过弹性资源池统一进行网段划分,减少跨源配置的复杂度。 资源调配 多个队列同时扩容时不能设置优先级,在资源不够时,会导致部分队列扩容申请失败。 您可以根据当前业务波峰和波谷时间段,设置各队列在
创建Spark作业-高级配置 高级包括以下两项参数: 选择依赖资源:具体参数请参考表3。 计算资源规格:具体参数请参考表4。 Spark资源并行度由Executor数量和Executor CPU核数共同决定。 任务可并行执行的最大Task数量=Executor个数 * Executor
exactly-once none sink.parallelism 否 无 Integer 定义Kafka sink算子的并行度。 默认情况下,由框架确定并行度,与上游链接算子的并行度保持一致。 ssl_auth_name 否 无 String DLI侧创建的Kafka_SSL类型的跨源认证名称。Kafka配置SSL时使用该配置。
m_cus)/(cu_number-manager_cu_number)”。 operator_config 否 String 算子的并行度配置。 resume_checkpoint 否 Boolean 异常重启是否从checkpoint恢复。 resume_max_num 否 Integer
sink.parallelism 否 无 Integer 定义upsert-kafka sink 算子的并行度。默认情况下,由框架确定并行度,与上游连接算子的并行度保持一致。 sink.buffer-flush.max-rows 否 0 Integer 缓存刷新前,最多能缓存的记录条数。
exactly-once none sink.parallelism 否 无 Integer 定义Kafka sink算子的并行度。 默认情况下,由框架确定并行度,与上游链接算子的并行度保持一致。 ssl_auth_name 否 无 String DLI侧创建的Kafka_SSL类型的跨源认证名称。Kafka配置SSL时使用该配置。
String Redis 表schema的key source.parallelism 否 无 int 定义源的自定义并行度。默认情况下,如果未定义此选项,使用全局配置来的并行度。 示例 该示例是从DCS Redis数据源中读取数据,并写入Print到结果表中,其具体步骤如下: 参考增强型
ms等,默认为ms。 sink.parallelism 否 无 Integer 为 HBase sink operator 定义并行度。 默认情况下,并行度由框架决定,和连接在一起的上游operator一样。 krb_auth_name 否 无 String DLI侧创建的Kerberos类型的跨源认证名称。
ms等,默认为ms。 sink.parallelism 否 无 Integer 为 HBase sink operator 定义并行度。 默认情况下,并行度由框架决定,和链在一起的上游operator一样。 krb_auth_name 否 无 String DLI侧创建的Kerberos类型的跨源认证名称。
ms等,默认为ms。 sink.parallelism 否 无 Integer 为 HBase sink operator 定义并行度。 默认情况下,并行度由框架决定,和连接在一起的上游operator一样。 properties.connector.auth.open 否 无 Boolean
Partition 对应的Doris Tablet 个数。 此数值设置越小,则会生成越多的 Partition。从而提升 Flink 侧的并行度,但同时会对 Doris 造成更大的压力。 doris.batch.size 1024 否 一次从 BE 读取数据的最大行数。增大此数值可减
永洪BI创建数据集 操作场景 在永洪SaaS生产环境中创建DLI的数据集。 操作步骤 在永洪SaaS生产环境主页,单击左侧导航栏中的“创建数据集”,请参见图1。 图1 创建数据集 在“数据集类型”页面中,选择创建“SQL数据集”,请参见图2。 图2 创建SQL数据集 在“创建数据
SQL作业运行慢如何定位 作业运行慢可以通过以下步骤进行排查处理。 可能原因1:FullGC原因导致作业运行慢 判断当前作业运行慢是否是FullGC导致: 登录DLI控制台,单击“作业管理 > SQL作业”。 在SQL作业页面,在对应作业的“操作”列,单击“更多 > 归档日志”。
新建跨源连接,显示已激活,但使用时提示communication link failure错误怎么办? 根因分析 网络连通性问题,建议用户检查安全组选择是否正确,检查安全组网络(vpc)配置。 解决方案 示列:创建RDS跨源,使用时报“communication link failure”错误。
创建跨源成功但测试网络连通性失败怎么办? 问题描述 创建跨源并绑定新创建的DLI队列,测试跨源的网络连通性时失败,有如下报错信息: failed to connect to specified address 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往
在Spark SQL作业中使用UDF 操作场景 DLI支持用户使用Hive UDF(User Defined Function,用户定义函数)进行数据查询等操作,UDF只对单行数据产生作用,适用于一进一出的场景。 约束限制 在DLI Console上执行UDF相关操作时,需要使用自建的SQL队列。