检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的聚合函数实现相同主键的聚合操作。 当前支持的聚合函数和数据类型如下: sum:求和函数可以跨多行聚合值,支持DECIMAL(小数)、SHORT(小整数)、INTEGER(整数)、BIGINT(大整数)、FLOAT(浮点数)和DOUBLE(双精度浮点数)数据类型。 product
均衡Kafka扩容节点后数据 操作场景 用户可以在Kafka扩容节点后,在客户端中执行Kafka均衡工具来均衡Kafka集群的负载。 本章节内容适用于MRS 3.x之前版本。3.x及之后版本请参考配置Kafka数据均衡工具。 前提条件 MRS集群管理员已明确业务需求,并准备一个K
Spark Distinct聚合优化 本章节仅适用于MRS 3.3.1-LTS及之后版本。 配置场景 当SQL中存在多个count(distinct)聚合函数,且存在cube,rollup等导致数据膨胀的算子时,使用该特性可以有效减少数据的膨胀倍数,且减少shuffle落盘的数据
配置Container日志聚合功能 配置场景 Yarn提供了Container日志聚合功能,可以将各节点Container产生的日志收集到HDFS,释放本地磁盘空间。日志收集的方式有两种: 应用完成后将Container日志一次性收集到HDFS。 应用运行过程中周期性收集Container输出的日志片段到HDFS。
enable 日志聚合路径是否包含Queue User。主要针对Hive作业,Queue User为Hive提交作业的真实用户。默认不开启。(该参数只在MRS 3.3.1以及之后版本支持。) true:表示日志聚合路径包含Queue User。 false:表示日志聚合路径不包含Queue
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
ALM-45005 HetuEngine计算实例CPU负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的平均CPU负载使用率,当检测到HetuEngine计算实例的CPU负载使用率大于90%时产生该告警。 HetuE
HetuEngine计算实例内存负载使用率超过阈值 本章节适用于MRS 3.3.1及以后版本。 告警解释 系统每30秒周期性检测HetuEngine计算实例的内存负载使用率,当检测到HetuEngine计算实例的内存负载使用率大于80%时产生该告警。 HetuEngine计算实例运行的内存负载使用率小于等于80%时,告警清除。
建议单集群不超过256节点规模。 集群负载 对于不同业务负载的业务,需要分开集群部署,便于不同负载的业务进行资源隔离。 集群并发 由于ClickHouse单个SQL会最大化使用每个主机上的CPU/内存/IO资源,对于复杂SQL查询(复杂聚合、复杂join计算)能够支持50~100
日志聚合下,如何查看Spark已完成应用日志 问题 当YARN开启了日志聚合功能时,如何在页面看到聚合后的container日志? 回答 当Yarn配置“yarn.log-aggregation-enable”为“true”时,就开启了container日志聚合功能。日志聚合功能
NameNode节点长时间满负载导致客户端无响应 问题 当NameNode节点处于满负载、NameNode所在节点的CPU 100%耗尽时,导致NameNode无法响应,对于新连接到该NameNode的HDFS客户端,能够主备切换连接到另一个NameNode,进行正常的操作,而对
NameNode节点长时间满负载导致客户端无响应 问题 当NameNode节点处于满负载、NameNode所在节点的CPU 100%耗尽时,导致NameNode无法响应,对于新连接到该NameNode的HDFS客户端,能够主备切换连接到另一个NameNode,进行正常的操作,而对
件信息中是否有HDFS磁盘均衡任务事件发生,如果有,可以排查集群中是否开启了DiskBalancer。 自动执行磁盘均衡的特性开启以后,会在此次数据均衡执行完成之后才会退出。无法在执行均衡中途取消本次执行任务。 如果想要灵活选择某些指定节点进行数据均衡,可以在客户端手动指定执行。
ALM-38017 分区均衡时间超过阈值 告警解释 系统每10分钟(可以通过修改Kafka配置项“auto.reassign.check.interval.ms”调整)周期性检测,扩容新的Broker后触发的分区均衡时间超过阈值(默认为1440分钟,可以通过修改Kafka配置项“reassignment
日志聚合下如何查看Spark已完成应用日志 问题 当YARN开启了日志聚合功能时,如何在页面看到聚合后的container日志? 回答 当Yarn配置“yarn.log-aggregation-enable”为“true”时,就开启了container日志聚合功能。 日志聚合功能
ce做聚合操作,并输出结果,这样的处理会使相同的Group By Key可能被分发到不同的Reduce中,从而达到负载均衡,第二个Job再根据预处理的结果按照Group By Key分发到Reduce中完成最终的聚合操作。 Count Distinct聚合问题 当使用聚合函数count
ce做聚合操作,并输出结果,这样的处理会使相同的Group By Key可能被分发到不同的Reduce中,从而达到负载均衡,第二个Job再根据预处理的结果按照Group By Key分发到Reduce中完成最终的聚合操作。 Count Distinct聚合问题 当使用聚合函数count
配置Spark SQL语法支持关联子查询不带聚合函数 本章节仅适用于MRS 3.3.1-LTS及之后版本。 配置场景 开源版本Spark SQL强制要求子查询关联中必须使用聚合函数,如果未使用聚合函数将报错“Error in query: Correlated scalar subqueries
购买ELB并配置对接ClickHouse 购买ELB并获取其私有IP地址 详细操作步骤请参考创建共享型负载均衡器。 登录“弹性负载均衡器”控制台,在“负载均衡器”界面单击“购买弹性负载均衡”。 在“购买弹性负载均衡”界面,“实例规格类型”选择“共享型”,“所属VPC”和“子网”参数需要和MRS集群保持一致,其他参数保持默认即可。
可自动负载均衡,实现并发度水平扩展。 须知: 配置多个计算实例时: 需确保集群资源充足。单租户多实例需要的资源为单实例资源*实例个数(每个计算实例的规格一致,不支持差异化配置)。 需使用短连接方式,并以HSFabric模式连接HetuEngine,该模式支持更优的负载均衡调度能力。