检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
COALESCE可以将异常的空值转为0或者空,以下情况会被try捕获: 分母为0 错误的cast操作或者函数入参 数字超过了定义长度 不推荐使用,应该明确以上异常,做数据预处理 示例: 假设有以下表,字段origin_zip中包含了一些无效数据: -- 创建表 create table
在yarn-client模式下,Driver部署在Client端,在Client端启动。yarn-client模式下,不兼容老版本的客户端。推荐使用yarn-cluster模式。 客户端向ResourceManager发送Spark应用提交请求,ResourceManager为其返
layout.optimize.strategy”为z-order或者hilbert。 适合排序多个字段,例如查询条件中涉及到多个字段。推荐排序字段的个数2到4个。 hilbert多维排序效果比z-order好,但是排序效率没z-order高。 详细配置请参考Hudi常见配置参数。
nt-info.cfg 执行批量刷新“/etc/hosts”文件时,输入的客户端包可以是完整客户端,也可以是仅包含配置文件的客户端软件包,推荐使用仅包含配置文件的客户端软件包。 需要更新“/etc/hosts”文件的主机所配置的用户必须为root用户,否则会刷新失败。 父主题: 管理MRS集群客户端
下面代码片段仅为演示,具体代码参见com.huawei.bigdata.spark.examples.JavaDstreamKafkaWriter: Spark版本升级后,推荐使用新接口createDirectStream,老接口createStream仍然存在,但是性能和稳定性差,建议不要使用老接口开发应用程序。
方法一:预留桶数,如使用非分区表则需通过预估较长一段时间内的数据增量来预先增加桶数,缺点是随着数据的增长,文件依然会持续膨胀; 方法二:大粒度分区(推荐),如果使用分区表则需要根据数据增长情况来计算,例如使用年分区,这种方式相对麻烦些但是多年后表无需重新导入。 方法三:数据老化,按照业务逻
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 基本概念
能不再被还原。如果恢复作业失败或被取消,有可能造成之前的数据损坏且无法访问。这种情况下,只能通过再次执行恢复操作,并等待作业完成。因此,不推荐使用覆盖的方式恢复数据,除非确认当前数据已不再使用。 数据恢复原理介绍 Doris数据恢复操作需指定一个远端仓库中已存在的备份数据,再将备
在发出最大请求数后,连接将关闭。定期关闭连接对于释放每个连接的内存分配是必要的。因此,使用过高的最大请求数可能会导致过多的内存使用,因此不推荐使用。 默认值:1000 取值范围:[1,100000] keepalive_time 限制可以通过一个保持活动连接处理请求的最长时间。达
“安全级别”和“Facility”各项对应的数值请参考表2。 Facility local use 0 (local0) 设置产生日志的模块。可选项参考表2,推荐使用默认值“local use 0 (local0)”。 标识符 FusionInsight Manager 设置产品标识。 标识符可以包含字母、数字、下划线、
from KafkaSource; 在作业管理界面右边的基础参数中勾选开启CheckPoint,“时间间隔(ms)”根据实际需求填写合适的值,推荐配置的时间间隔取值范围为30000~60000。 单击“语义校验”对输入内容进行语义校验,单击“保存”,单击“提交”提交作业。 Kafka侧操作。
对时序数据特征,进行强有力的数据编码和压缩能力,同时其自身的副本机制也保证了数据的安全,并与Apache Hadoop和Flink等进行了深度集成,可以满足工业物联网领域的海量数据存储、高速数据读取和复杂数据分析需求。 IoTDB基本原理 从零开始使用IoTDB Impala组件
Unique模型针对需要唯一主键约束的场景,可以保证主键唯一性约束。但是无法利用ROLLUP等预聚合带来的查询优势。 对于聚合查询有较高性能需求的用户,推荐使用写时合并实现。 Unique模型仅支持整行更新,如果用户既需要唯一主键约束,又需要更新部分列(例如将多张源表导入到一张Doris表的场
研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。 MRS 3.2.0-LTS.1 组件选择 基于系统预置的集群模板选择要购买的集群组件。
API接口 功能 说明 Scala API 提供Scala语言的API,提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂,推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API,提供过滤、join、窗口、聚合等数据处理能力。 Flink基本概念
ttl参数来控制维表数据的加载周期,默认值为60min。 Hudi维表数据会被加载到Flink TaskManager Heap中,所以不推荐大于10万行记录的Hudi表作为维表。 维表的新增、更新数据需要等到下一次加载周期后,才能被加载进来参与计算。 SQL示例如下: CREATE
如上表所示,yarn-cluster模式中不支持在Spark工程代码中进行安全认证,因为需要在应用启动前已完成认证。 未提供Python样例工程的安全认证代码,推荐在运行应用程序命令中设置安全认证参数。 安全认证代码(Java版) 目前样例代码统一调用LoginUtil类进行安全认证。 在Spark样
研、成熟稳定的特性和功能,带来性能及稳定性的提升。 LTS版 集群版本 MRS集群的版本,不同版本所包含的开源组件版本及功能特性可能不同,推荐选择最新版本。 版本详细包含的组件详细可参考MRS组件版本一览表。 MRS 3.2.0-LTS.1 组件选择 基于系统预置的集群模板选择要购买的集群组件。
如上表所示,yarn-cluster模式中不支持在Spark工程代码中进行安全认证,因为需要在应用启动前已完成认证。 未提供Python样例工程的安全认证代码,推荐在运行应用程序命令中设置安全认证参数。 安全认证代码(Java版) 目前样例代码统一调用LoginUtil类进行安全认证。安全登录流程请参见安全认证接口章节。
如上表所示,yarn-cluster模式中不支持在Spark工程代码中进行安全认证,因为需要在应用启动前已完成认证。 未提供Python样例工程的安全认证代码,推荐在运行应用程序命令中设置安全认证参数。 安全认证代码(Java版) 目前样例代码统一调用LoginUtil类进行安全认证。安全登录流程请参见安全认证接口章节。