检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。 MRS HDFS数据迁移到OBS 本实践以MRS HDFS数据迁移到OBS为例,介绍如何通过CDM将文件类数据迁移到文件中。
添加该参数后在库授权时会跳过分区扫描。需要重启Metastore实例生效。
org.apache.hadoop.hbase.client.Scan中新增反向扫描方法设置isReversed()和setReversed(boolean reversed)。
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*)查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
系统每个小时整点扫描动态存储策略指定的目录下的文件是否符合规则,如果满足,则触发执行动作。执行日志记录在主NameNode的“/var/log/Bigdata/hdfs/nn/hadoop.log”目录下。
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,适合有固定模式的报表类查询场景,但是该模型不适用于count(*)查询。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语义正确性。
hive.max-partitions-per-scan:为单Hive分区表扫描最大分区个数。系统默认100000。 HetuEngine服务在安装时共部署的Hive数据源的“hive.ignore-absent-partitions”默认为“true”。 单击“确定”。
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
扫描Opentsdb的指标数据 执行tsdb query命令批量查询导入的指标数据,命令格式如下: tsdb query <START-DATE> <END-DATE> <aggregator> <metric> <tagk=tagv>,例如执行tsdb query 0 1h-ago
Aggregate模型可以通过预聚合,极大地降低聚合查询时所需扫描的数据量和查询的计算量,非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式,在进行其他类型的聚合查询时,需要考虑语意正确性。
CarbonData是一种高性能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。
系统每个小时整点扫描动态存储策略指定的目录下的文件是否符合规则,如果满足,则触发执行动作。执行日志记录在主NameNode的“/var/log/Bigdata/hdfs/nn/hadoop.log”目录下。
物化视图的“查询重写”不支持全表扫描,SQL查询没有使用Where子句,无法被查询重写。 例如:表“hivetb1”的列定义包含了“id”、“name”、“age”三个列,如下SQL查询就无法被“查询重写”。
Mapreduce 2min+x JobHistoryServer:2min+x x为历史任务扫描时长,每10万任务大约2.5分钟。 ZooKeeper 2min+x quorumpeer:2min+x x为加载znode节点时长,每100万znode大约1分钟。
Export作业会扫描数据,占用I/O资源,可能会影响系统的查询延迟。
解决的问题 MRS 3.1.2-LTS.2.6 修复问题列表: 修复log4j漏洞(CVE-2021-44228),log4j升级到2.17.2版本 包含MRS 3.1.2-LTS.2.2修复问题 补丁兼容关系 MRS 3.1.2-LTS.2.6补丁包中包含所有MRS 3.1.2-
例如,若curl仅支持TLSv1协议(TLSv1协议存在安全漏洞,请谨慎使用),修改方法如下: 登录FusionInsight Manager页面,单击“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置 > 全部配置”。
表2 物化视图改写场景示例 场景 描述 创建物化视图SQL样例 用户查询SQL样例 查询SQL是否能被改写 备注 全表查询 最基本的全表查询场景 select * from tb_a; select * from tb_a; 否 创建全表扫描的物化视图没有实际意义,不支持 列查询
注意: 将此值设置的太低,将产生很多误报,并且索引查找将必须扫描比其所需的更多的文件;如果将其设置的非常高,将线性增加每个数据文件的大小(每50000个条目大约4KB)。 60000 hoodie.index.bloom.fpp 根据条目数允许的错误率。
开放集群22端口安全组规则 该操作会增大用户利用22端口进行漏洞攻击的风险。 针对开放的22端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。 删除集群或删除集群数据 该操作会导致数据丢失。