检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rollup/cube选项时,Grouping才有意义。 CUBE生成的结果集显示了所选列中值的所有组合的聚合。 ROLLUP生成的结果集显示了所选列中值的某一层次结构的聚合。 Grouping:当用CUBE或ROLLUP运算符添加行时,附加的列输出值为1;当所添加的行不是由CU
g1.processor.selector=random Flume多客户端聚合级联时的注意事项。 级联时需要走Avro或者Thrift协议进行级联。 聚合端存在多个节点时,连接配置尽量配置均衡,不要聚合到单节点上。 Flume客户端可以包含多个独立的数据流,即在一个配置文件properties
ClickHouse会将一个数据片段内所有具有相同主键(准确的说是排序键)的行替换成一行,这一行会存储一系列聚合函数的状态。可以使用AggregatingMergeTree表引擎来做增量数据的聚合统计,包括物化视图的数据聚合。 CollapsingMergeTree 在创建时与MergeTree基本一样,
g1.processor.selector=random Flume多客户端聚合级联时的注意事项。 级联时需要走Avro或者Thrift协议进行级联。 聚合端存在多个节点时,连接配置尽量配置均衡,不要聚合到单节点上。 Flume客户端可以包含多个独立的数据流,即在一个配置文件properties
MRS的弹性伸缩规则功能支持根据集群负载对集群的Task节点进行弹性伸缩。如果数据量是按照周期进行有规律的变化,用户可以按照固定时间段来自动调整Task节点数量范围,从而在数据量变化前提前完成集群的扩缩容。 弹性伸缩规则:根据集群实时负载指标对Task节点数量进行调整,数据量变化后触发扩缩容,有一定的延后性。
执行以下命令打开HBase负载均衡功能,并确认是否成功打开。 hbase shell balance_switch true balancer_enabled 执行结果为“true”表示负载均衡功能已打开。 执行balancer命令手动触发负载均衡。 建议打开和手动触发负载均衡操作在业务低峰期进行。
执行以下命令打开负载均衡功能,并查看是否成功打开。 hbase shell balance_switch true balancer_enabled 执行结果为“true”表示负载均衡功能已打开。 执行balancer命令手动触发负载均衡。 建议打开和手动触发负载均衡操作在业务低峰期进行。
(普通模式)请跳过该操作) 执行以下命令查看负载均衡功能是否打开。 hbase shell balancer_enabled 若执行结果为“true”则表示已打开负载均衡功能。 是,执行20。 否,执行18。 执行以下命令打开负载均衡功能,并确认是否成功打开。 balance_switch
资源组介绍 资源组机制从资源分配的角度控制实例的整体查询负载,并可以对查询实施排队策略。可以在一个计算实例资源下创建多个资源组,并且每个提交的查询将分配给一个特定的资源组执行。在资源组执行新查询之前,将检查当前资源组的资源负载是否超过实例分配给它的资源量。如果超过,则将阻止新到达的
通过Flume采集指定目录日志系统文件至HDFS 应用场景 Flume是一个分布式、可靠和高可用的海量日志聚合的系统。它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。支持在系统中定制各类数据发送方,用于收集数据。同时,提供对数据进行简
询。虽然无法利用预聚合的特性,但是不受聚合模型的约束,可以发挥列存模型的优势。适合不要求数据更新的通用查询场景。 查询模式: 单表检索查询,按索引进行单表检索查询,可进行高并发,低延迟的数据查询访问。 单表聚合查询,不同维度进行聚合查询,可提供低延迟的数据聚合查询能力。 多表关联
SQL可以选择使用MR引擎执行。 可靠性增强。Hue自身主备部署。Hue与HDFS、Oozie、Hive、Yarn等对接时,支持Failover或负载均衡工作模式。 父主题: Hue
配置用户在具有读和执行权限的目录中创建外表 配置基于HTTPS/HTTP协议的REST接口 配置Hive Transform功能开关 切换Hive执行引擎为Tez Hive负载均衡 配置Hive单表动态视图的访问控制权限 配置创建临时函数的用户不需要具有ADMIN权限 配置具备表select权限的用户可查看表结构
目前支持扩容集群Core节点或Task节点,用户可通过增加节点数量处理业务峰值负载。MRS集群节点扩容中和扩容后对现有集群的业务没有影响,扩容后引起的数据倾斜问题可参考配置HDFS DataNode数据均衡页面内容进行规避。 包周期集群扩容 当用户购买了MRS包周期集群后,在订购的
Broker的分区数超出阈值,过多的分区会加剧Broker的负载,使得内存、磁盘IO、CPU等资源出现瓶颈,最终导致请求响应变慢,甚至超时。 可能原因 Broker的分区分布不均衡,或Kafka集群超规格使用。 无用的Topic较多。 处理步骤 检查Broker上分区分布是否均衡。 登录FusionInsight
L查询和有高耗时的算子(连接, 聚合等算子)的SQL通过建立物化视图进行预计算,然后在查询的SQL中将能匹配到物化视图的查询或者子查询转换为物化视图,避免了数据的重复计算,这种情况下往往能较大地提高查询的响应效率。 物化视图通常基于对数据表进行聚合和连接的查询结果创建。 物化视图
如何提高Presto资源使用率? 问题现象 节点资源利用不均衡,执行Presto任务几小时后仍未完成。 解决步骤 调小Yarn节点内存比例: 登录Manager页面,选择“集群 > 服务 > Presto > 实例”,查看并记录所有Presto实例所在节点主机名称。 选择“集群 >
表数据超过5亿条以上必须设置分区分桶策略。 表的分桶列不要设置太多,一般情况下设置1或2个列即可,同时需要兼顾数据分布均匀和查询吞吐均衡。 数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率。 查询吞吐利用查询SQL的分桶剪裁优化避免了全桶扫描,以提升查询性能。 分桶列的选取:优先考虑数据较为均匀且常用于查询条件的列作为分桶列。
客户端请参考服务端配置过期后更新MRS集群客户端进行更新。 扩容后,如需对HDFS数据进行均衡操作,请参考配置DataNode容量均衡。如需对Kafka数据进行均衡操作,请参考Kafka均衡工具使用说明。 扩容按需集群 登录MRS管理控制台。 选择“现有集群” ,选中一个运行中的集群并单击集群名称,进入集群信息页面。
创建Storm Bolt 功能介绍 所有的消息处理逻辑都被封装在各个Bolt中。Bolt包含多种功能:过滤、聚合等。 如果Bolt之后还有其他拓扑算子,可以使用OutputFieldsDeclarer.declareStream定义Stream,使用OutputCollector