正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
二级跳数索引设计 跳数索引使用参考: 使用说明 对于*MergeTree引擎,支持配置跳数索引,即一种数据局部聚合的粗糙索引,对数据块创建索引,选择性的保留一部分原始数据(minmax、set), 或者是保留计算后的中间数据(bloomfilter)。
文件分割方式 支持以下两种: File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”。 Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”。
no maxClientCnxns ZooKeeper的最大连接数,在连接数多的情况下,建议增加。 2000 LOG_LEVEL 日志级别,在调试的时候,可以改为DEBUG。
系统默认设置Coordinator访问hive metastore时的最大连接数为50,最大空闲连接数为8,最小空闲连接数为0,Worker访问hive metastore时的最大连接数为20,最大空闲和最小空闲连接数为0。
安全模式:privacy 普通模式:authentication Web最大并发连接数限制 为了保护Web服务器的可靠性,当访问的用户连接数达到一定数量之后,对新增用户的连接进行限制。防止大量同时登录和访问,导致服务不可用,同时避免DDOS攻击。
95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。
如果采用月分区,分区桶的个数= 3GB * 30 /2GB = 45个桶 ,这样写入的数据桶数减少到了45个桶。在有限的计算资源下,写入的桶数越少,性能越高。 父主题: Hudi数据表设计规范
HBase的RegionServer滚动重启的并发数不支持手动配置,会根据RegionServer的节点数自行调整,调整规则为:30节点以内,每个批次1个节点;300节点以内,每个批次2个节点;300节点以上(含300节点),每个批次1%(向下取整)个节点。
如果想要DataNode不出现故障,配置的“dfs.datanode.failed.volumes.tolerated”一定要小于所配置的卷数,也可以将“dfs.datanode.failed.volumes.tolerated”设置成-1,相当于设置该值为n-1(n为卷数),那样
60 loader.submission.purge.limited 清除时保持的提交数,可以避免作业历史记录被清理干净。 0 loader.submission.purge.record.max Loader作业最大可保留的记录数(条),0表示不限制。
如果想要DataNode不出现故障,配置的“dfs.datanode.failed.volumes.tolerated”一定要小于所配置的卷数,也可以将“dfs.datanode.failed.volumes.tolerated”设置成-1,相当于设置该值为n-1(n为卷数),那样
每个YARN容器最多分配核数 表示当前队列内单个YARN容器可分配的最多核数,默认为-1,表示取值范围内不限制。 每个YARN容器最大分配内存(MB) 表示当前队列内单个YARN容器可分配的最大内存,默认为-1,表示取值范围内不限制。
计算公式 假设历史数据量为H,每日增量为A,单节点磁盘容量为C,数据保留M天,集群副本数为R,则ClickHouseServer物理节点数计算公式如下: ClickHouseServer物理节点数N = [R * (H + A * M)] / C 父主题: ClickHouse集群规划
获取记录数 为了获取在CarbonData table中的记录数,可以执行以下命令。 select count(*) from x1; 使用Groupby查询 为了获取不重复的“deviceinformationid”记录数,可以执行以下命令。
并行数为作业每个算子的并行数,适度增加并行数会提高作业整体算力,但也须考虑线程增多带来的切换开销,其上限是计算单元SPU数的四倍,最佳实践为计算单元SPU数的1-2倍。 JobManager内存(MB) JobManager的内存。输入值最小为4096。 提交队列 作业提交队列。
Hive负载均衡 配置Hive任务的最大map数 配置用户租约隔离访问指定节点的HiveServer 父主题: Hive企业级能力增强
FORMAT format] 使用示例 --查看ClickHouse集群信息 select * from system.clusters; --显示当前节点设置的宏 select * from system.macros; --查看数据库容量 select sum(rows) as "总行数"
FORMAT format] 使用示例 --查看ClickHouse集群信息 select * from system.clusters; --显示当前节点设置的宏 select * from system.macros; --查看数据库容量 select sum(rows) as "总行数"
MAXCOLUMNS:该可选参数指定了在一行中,由CSV解析器解析的最大列数。
“spark.sql.codegen.maxFields”:指定codegen的所有stage所支持的最大字段数(包括嵌套字段),默认为100。