数据存储使用HBase来承接,HBase是一个 开源 的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。更多关于HBase的信息,请参见:https://hbase.apache.org/。
存储在HBase中的表的典型特征:
大表(BigTable):一个表可以有上亿行,上百万列
面向列:面向列(族)的存储、检索与权限控制
稀疏:表中为空(null)的列不占用存储空间
MRS服务的HBase组件支持计算存储分离,数据可以存储在低成本的 云存储 服务中,包含 对象存储服务 ,并支持跨AZ 数据备份 。并且MRS服务支持HBase组件的二级索引,支持为列值添加索引,提供使用原生的HBase接口的高性能基于列过滤查询的能力。
HBase结构
HBase集群由主备Master进程和多个RegionServer进程组成。如图HBase结构所示。
图1 HBase结构