检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive应用开发建议 HQL编写之隐式类型转换 查询语句使用字段的值做过滤时,不建议通过Hive自身的隐式类型转换来编写HQL。因为隐式类型转换不利于代码的阅读和移植。 建议示例: select * from default.tbl_src where id = 10001; select
ClickHouse本地表设计 规则 单表(分布式表)的记录数不要超过万亿,对于万亿以上表的查询,性能较差,且集群维护难度变大。单表(本地表)不超过百亿。 表的设计都要考虑到数据的生命周期管理,需要进行TTL表属性设置或定期老化清理表分区数据。 单表的字段建议不要超过5000列。
的创建与查询操作指导。 HBase集群使用Hadoop和HBase组件提供一个稳定可靠、性能优异、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
edits最大大小。单位为byte。如果edit大小超过这个值Hlog edits将会发送到备集群。 replication.source.nb.capacity 25000 edits最大数目,这是另一个触发Hlog edits到备集群的条件。当主集群同步数据到备集群中时,主集群
Hive查询结果表做压缩存储(ARC4),对结果表做select * 查询时返回结果为乱码。 可能原因 Hive默认压缩格式不是ARC4格式或者未开启输出压缩。 解决方案 在select结果乱码时,在beeline中进行如下设置。 set mapreduce.output.fileoutputformat
数调用(连接操作 ||)时能提供数据类型隐式转换功能。 类型隐式转换功能是可以打开、关闭的,默认是关闭状态,使用前需要先打开隐式转换功能。 在Session级别开启隐式转换 登录HetuEngine客户端。 执行以下命令,开启数据类型隐式转换功能。 set session imp
产生告警的表名。 对系统的影响 当本地复制表在副本之间业务数据不一致时,会影响ClickHouse复制表数据的可靠性,造成数据差异,影响分布式表的查询结果。 可能原因 ClickHouse业务压力过大。 ClickHouse与ZooKeeper连接发生异常。 处理步骤 检查ClickHouse业务压力是否过大
快速使用HBase进行离线数据分析 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导,通过客户端实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。 背景信息 假定用户开发一个应用程序,用于管理
独立的。 同时ClickHouse依靠Distributed引擎实现了分布式表机制,在所有分片(本地表)上建立视图进行分布式查询,使用很方便。ClickHouse有数据分片(shard)的概念,这也是分布式存储的特点之一,即通过并行读写提高效率。 本章节指导用户在创建MRS集群后
快速使用HBase进行离线数据分析 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导,通过客户端实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。 背景信息 假定用户开发一个应用程序,用于管理
ALM-45436 ClickHouse表数据倾斜 告警解释 ClickHouse各节点之间,分布式表对应的本地表中,若存在数据倾斜,系统产生此告警。当检测到数据均衡时,告警自动清除。 数据倾斜检测方法: 当参数“min_table_check_data_bytes”值为“0”时,不启用数据倾斜检查。
配置矢量化读取ORC数据 配置场景 ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行
配置矢量化读取ORC数据 配置场景 ORC文件格式是一种Hadoop生态圈中的列式存储格式,它最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内按列进行
主机名 产生告警的主机名 对系统的影响 ClickHouse读写数据异常,本地表的INSERT、SELECT和CREATE操作概率异常,分布式表基本不受影响。 影响业务,会导致IO失败。 可能原因 磁盘老化或者磁盘坏道。 处理步骤 在FusionInsight Manager首页,选择“运维
edits最大大小。单位为byte。如果edit大小超过这个值HLog edits将会发送到备集群。 replication.source.nb.capacity 25000 edits最大数目,这是另一个触发HLog edits到备集群的条件。当主集群同步数据到备集群中时,主集群
告警解释 ClickHouse依赖ZooKeeper,zxid(ZooKeeper Transaction ID)是ZooKeeper为了实现分布式一致性而引入的一种事务编号,是一个长64位的数字。高32位用来表示当前Leader的周期,低32位用来表示当前请求产生的事务在当前Leade
Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。更多关于HBase的信息,请参见:https://hbase.apache.org/。 存储在HBase中的表的典型特征: 大表(
table创建成功后,可使用LOAD DATA命令在表中加载数据,并可供查询。 触发数据加载后,数据以CarbonData格式进行编码,并将多维列式存储格式文件压缩后复制到存储CarbonData文件的HDFS路径下供快速分析查询使用。 HDFS路径可以配置在carbon.properties文件中。
table创建成功后,可使用LOAD DATA命令在表中加载数据,并可供查询。 触发数据加载后,数据以CarbonData格式进行编码,并将多维列式存储格式文件压缩后复制到存储CarbonData文件的HDFS路径下供快速分析查询使用。 HDFS路径可以配置在carbon.properties文件中。
MRS支持什么类型的分布式存储? 问: MRS集群支持什么类型的分布式存储?有哪些版本? 答: MRS集群内使用主流的大数据Hadoop,目前支持Hadoop 3.x版本,并且随集群演进更新版本。 同时MRS也支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式。