检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Java UDF应该指定返回值的数据类型,并且必须具有返回值,返回值默认或异常时不要设置为NULL。建议使用基本数据类型或Java类作为返回值类型。 父主题: Doris应用开发规范
设置配置项。 在“spark-defaults.conf”配置文件中增加配置项“spark.sql.cbo”,将其设置为true,默认为false。 在客户端执行SQL语句set spark.sql.cbo=true进行配置。 执行统计信息生成命令,得到统计信息。
冷却时间皆为20分钟,并且设置了该策略下弹出的节点会打上aaa=bbb的标签。
索引的命中规则如下: 多个AND条件查询 当用于查询的列至少包含索引的一个列时,使用索引会提高查询性能。 例如,为C1、C2和C3创建组合索引。
回答 在executor核数等于1的情况下,遵循以下规则对调优Spark Streaming运行参数有所帮助。
在使用beeline客户端时,如果需要在一行中输入多条语句,语句之间以“;”分隔,需要将“entireLineAsCommand”的值设置为“false”。
将RSGroup最小节点数设置为下述三种情况的最大值。 为了保证服务的可靠性,RSGroup内的RegionServer节点数量需要配置一定的冗余量,确保冗余节点数 > (RSGroup内业务表region总数/2000)* 50%。
回答 在executor核数等于1的情况下,遵循以下规则对调优Spark Streaming运行参数有所帮助。
Data masking函数 数据脱敏(Data masking) 指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。 mask_first_n(string str[, int n]) →varchar 描述:返回str的屏蔽版本,前n个值被屏蔽。
将RSGroup最小节点数设置为下述三种情况的最大值。 为了保证服务的可靠性,RSGroup内的RegionServer节点数量需要配置一定的冗余量,确保冗余节点数 >(RSGroup内业务表region总数/2000)*50%。
处理步骤 在SQL脚本前设置executor参数,限制executor的核数和内存。
压缩后的日志文件名规则为:“<原有日志名>-<yyyy-mm-dd_hh-mm-ss>.
此配置在一定程度起到潜在问题预警的作用,如果集群硬件资源不足,此配置调整不合理,会导致服务潜在问题不能及时被发现,可能进一步引起其他故障,恢复难度增加。
Spark增量读取Hudi参数规范 规则 增量查询之前必须指定当前表的查询为增量查询模式,并且查询后重写设置表的查询模式 如果增量查询完,不重新将表查询模式设置回去,将影响后续的实时查询 示例 set hoodie.tableName.consume.mode=INCREMENTAL
增加任务的并行度,充分利用集群机器的计算能力,一般并行度设置为集群CPU总和的2-3倍。 操作步骤 并行度可以通过如下三种方式来设置,用户可以根据实际的内存、CPU、数据以及应用程序逻辑的情况调整并行度参数。 在会产生shuffle的操作函数内设置并行度参数,优先级最高。
HBase单表查询范围扫描优化 HBase单表查询范围扫描优化是指根据HBase的列的谓词条件尝试自动推断rowkey的起止地址,在tableScan的时候设置hbase scan起止地址从而提高访问性能。
下表说明了结果的精度和范围计算规则。假设x的类型为DECIMAL(xp, xs),y的类型为DECIMAL(yp, ys)。
BulkLoad组合rowkey即通过一些规则将多个列名经过一些自定义处理,组合生成新的rowkey。 列的名称不能包含特殊字符,只能由字母、数字和下划线组成。
parameter_value 将要设置的“parameter_name”的新值。
组件用户删除的文件数据并不会直接被删除,而是会保存到OBS文件系统内的用户回收站目录中,本章节用于指导用户设置OBS文件系统内回收站目录的生命周期策略,以定时自动清理相关数据。