检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
父主题: 数据读写类
应用背景 CloudTable Doris支持冷热数据分离特性。通过该特性,您可以将冷热数据分别存储在不同类型的存储介质中,以降低存储成本。主要适用以下场景: 数据存储周期长:面对历史数据的不断增加,存储成本也随之增加。
应用背景 CloudTable HBase支持冷热数据分离特性。通过该特性,您可以将冷热数据分别存储在不同类型的存储介质中,以降低存储成本。 父主题: 开发HBase冷热分离应用
HBase快速入门 HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导:通过HBase Shell命令实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。
应用背景 CloudTable ClickHouse支持冷热数据分离特性。通过该特性,您可以将冷热数据分别存储在不同类型的存储介质中,以降低存储成本。 Hot(热数据):访问、更新频率较高,未来被调用的概率较高的数据,对访问的响应时间要求很高的数据。
样例代码 此章节主要介绍CloudTable Doris冷热分离的使用命令,以及冷数据如何自动存储到obs桶中。 样例代码 自动存储冷数据。 创建冷数据自动归档到冷存储的数据迁移策略testPolicy。
如果创建较多的数据分片,并且其中有分片创建失败,则可能导致等待较长超时后,才会返回错误。 正常情况下,建表语句会在几秒或十几秒内返回。如果超过一分钟,建议直接取消掉这个操作,前往FE或BE的日志查看相关错误。 父主题: 数据分区和分桶
而随着历史数据的不断增多,如果我们将所有数据存储在本地,将造成大量的资源浪费。冷热分离特性可将冷热数据分开存储,将冷热数据分别存储在成本不同的存储介质上。热数据提高时效数据的查询速度和响应能力,冷数据降低存储成本。
分区(Partition) 分区用于将数据划分成不同区间,逻辑上可以理解为将原始表划分成了多个子表。可以方便的按分区对数据进行管理。 Partition列可以指定一列或多列,分区列必须为KEY列。多列分区的使用方式在后面多列分区小结介绍。
数据的一致性问题:数据先在分布式表写入节点的主机落盘,然后数据被异步地发送到本地表所在主机进行存储,中间没有一致性的校验,如果分布式表写入数据的主机出现异常,会存在数据丢失风险。
背景 在数据分析的实际场景中,冷热数据面临着不同的查询频次及响应速度要求。而随着历史数据的不断增多,如果我们将所有数据存储在本地,将造成大量的资源浪费。冷热分离特性可将冷热数据分开存储,将冷热数据分别存储在成本不同的存储介质上。
同时,任一模块都可以支持横向拓展,集群最高可以拓展到数百个节点,支持存储超过10PB的超大规模数据。 稳定可靠:支持数据多副本存储,集群具备自愈功能,自身的分布式管理框架可以自动管理数据副本的分布、修复和均衡,副本损坏时系统可以自动感知并进行修复。
【建议】对于有大量历史分区数据,但是历史数据比较少,或者不均衡,或者查询概率的情况,使用如下方式将数据放在特殊分区: 对于历史数据,如果数据量比较小我们可以创建历史分区(比如年分区,月分区),将所有历史数据放到对应分区里。
连接管理概述 Doris的Hive外表自带create catalog能力,通过连接Hive Metastore,或者兼容Hive Metastore的元数据服务自动获取Hive库表信息,并进行表数据查询,从而避免了传统外部数据目录多需要手动映射以及数据迁移的复杂工程。
操作步骤 登录表格存储服务管理控制台。 单击控制台左上角的,选择区域。 在左侧导航树,单击集群管理。 在集群管理列表中的右上角,输入要搜索的集群名称,单击。 选中需要重启的集群名,在对应的操作列单击更多>重启。
处理方法 删除其他节点上的表格以及存放的数据,可解决此问题。 创建数据库。 create database demo ON CLUSTER default_cluster; 使用数据库,在新建的数据库中创建表。 use demo; 创建表test。
HBase集群管理简介 CloudTable集群模式提供了基于Apache HBase的分布式、可伸缩、全托管的NoSQL数据存储系统,它提供了毫秒级的随机读写能力,适用于海量结构化数据、半结构化数据存储和查询应用。
场景说明 假定用户需要开发一个应用程序,用于存储或根据一定条件查询人员的姓名、年龄和入职日期。主要操作步骤: 建立数据库的连接。 建立一张人员信息表。 插入数据(样例代码中数据为随机生成)。 根据条件查询数据。 父主题: 开发程序
GraphiteMergeTree 用于存储Graphite数据并进行汇总,可以减少存储空间,提高Graphite数据的查询效率。
操作步骤 登录表格存储服务管理控制台。 单击控制台左上角的,选择区域。 在左侧导航树,单击集群管理。 在集群管理列表中的右上角,输入要搜索的集群名称,单击。 选中需要重启的集群名,在对应的操作列单击更多>重启。