检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase集群写入数据大小不能超过多少? 问题现象 HBase集群大规模并行写入数据时,写入数据到一半卡主,无法写入数据。 原因分析 数据迁移单个请求写入数据太大,导致报错。 处理方法 建议单次写入不超过2M,单条不超过200k。 父主题: 数据读写类
Zookeeper连接数过多。 处理方法 建议业务代码连接同一个CloudTable HBase集群时,多线程创建并复用同一个Connection,不必每个线程都创建各自Connection。Connection是连接CloudTable HBase集群的连接器,创建过多连接会加重Zoo
只是在逻辑上删除了数据,并没有进行物理删除,也会产生垃圾文件。 数据文件合并完成后,并没有物理删除旧的数据,产生垃圾文件。 垃圾文件影响 过多垃圾文件,会占用磁盘,影响可用磁盘大小,可能造成有效数据丢失。 垃圾文件本身有防误删的功能,Doris可从垃圾文件中恢复数据,过少垃圾文件会影响防误删功能。
单个RegionServer写请求次数 统计测量对象的单个RegionServer的写请求次数。 >= 0 1分钟 rs_readrequestscount 单个RegionServer读请求次数 统计测量对象的单个RegionServer的读请求次数。 >= 0 1分钟 rs_bl
图3 多个资源开通自动续费 选择续费时长,并根据需要设置自动续费次数,单击“开通”。 在“续费管理”页面开通的自动续费,自动续费周期以实际选择的续费时长以及自动续费次数为准。例如:您选择了续费时长3个月,不限次数,即在每次到期前自动续费3个月。 图4 开通自动续费 父主题: 续费
doris_fe_image_clean_failed 清理历史元数据镜像文件失败的次数 不应失败,如失败,需人工介入 ≥0 60s SYS.CloudTable doris_fe_image_clean_success 清理历史元数据镜像文件成功的次数 - ≥0 60s SYS.CloudTable dor
由于磁盘负载是计算垃圾文件,所以一次性删除过多的垃圾文件,容易造成磁盘不均。 问题现象 Doris的数据磁盘空间如果不加以控制,会因磁盘写满而导致进程不可写。控制Doris系统中的各项操作,尽量避免发生磁盘被写满的情况。 问题分析 频繁写入数据、删除过多垃圾文件,导致磁盘不均衡。 解决办法
按照云服务器实际使用时长计费,秒级计费,按小时结算。按需计费模式允许您根据实际业务需求灵活地调整资源使用,无需提前预置资源,从而降低预置过多或不足的风险。一般适用于电商抢购等设备需求量瞬间大幅波动的场景。 包年/包月:根据集群购买时长,一次性支付集群费用。 新建包周期集群订单异
导入异常,则drop对应分区数据或清理掉导入的数据后,重新导入该分区或批次数据。 【规则】大批量少频次的写入数据。 ClickHouse每次插入数据时,都会生成一到多个part文件,如果data part过多,merge压力会变大,甚至出现各种异常情况影响数据插入。建议每个批次5
数据读写类 CloudTable HBase存储的是原始数据吗? 为什么HBase无法写入数据? HBase集群写入数据大小不能超过多少? HBase表格存储的每日新增数据使用量怎么查看? 怎么查看catalog指定数据库下的列表? 访问CloudTable HBase集群报错,hmaster域名不识别?
创建表:创建含有冷热分离策略的数据表,其中存储策略值必须为hot_to_cold。 写数据:新数据会按照信息导入到对应的数据表中。在ClickHouse中,每次数据写入都会生成一个新的Part,以保证冷数据的Part在不受影响的情况下写入新数据,满足冷热数据同时存储的需求。 冷热分离:数据存储在热存
信息,判断是否需要再次创建。 无论是异步还是同步的导入类型,都不应该在Doris返回导入失败或导入创建失败后,无休止的重试。外部系统在有限次数重试并失败后,保留失败信息,大部分多次重试均失败问题都是使用方法问题或数据本身问题。 父主题: 数据导入
不支持在多版本(VERSION>1)的数据表上创建索引,且索引表的版本VERSION=1。 单个数据表的索引个数不能超过5个。 不建议为单个数据表创建过多索引,索引数量过多会造成存储成本较高,写入耗时大。如果需创建超过5个索引,请在HMaster的自定义配置“hbase.hmaster.config.
用同一个Connection,不必每个线程都创建各自Connection。Connection是连接CloudTable集群的连接器,创建过多连接会加重Zookeeper负载,并损耗业务读写性能。 代码样例 以下代码片段是创建Connection对象的示例: private TableName
用同一个Connection,不必每个线程都创建各自Connection。Connection是连接CloudTable集群的连接器,创建过多连接会加重Zookeeper负载,并损耗业务读写性能。 代码样例 以下代码片段是创建Connection对象的示例: private TableName
否 int 未更改 - (0,10) 5 该参数限制了一个例行导入作业最大的子任务并发数。建议维持默认值。设置过大,可能导致同时并发的任务数过多,占用集群资源。 dynamic_partition_enable true 否 boolean 未更改 - [true,false] true
bel,用户可以查看对应导入任务的执行情况。 label的另一个作用,是防止用户重复导入相同的数据。强烈推荐用户同一批次数据使用相同的 label。这样同一批次数据的重复请求只会被接受一次,保证了At-Most-Once。当label对应的导入作业状态为CANCELLED时,该label可以再次被使用。
Doris集群明细账单 在管理控制台选择页面上方的“费用 > 费用账单”,进入费用中心后,在“账单管理 > 流水和账单明细”的“明细账单”中可以通过多方面展示客户账单信息。如表所示。 表3 Doris集群明细账单 产品类型 CloudTable服务 产品 Doris集群 计费模式 按需 资源名称/ID
可以看到,用户10004的已有数据和新导入的数据发生了聚合。同时新增了10005用户的数据。 数据的聚合,在Doris中有如下三个阶段发生: 每一批次数据导入的ETL阶段。该阶段会在每一批次导入的数据内部进行聚合。 底层BE进行数据Compaction的阶段。该阶段,BE会对已导入的不同批次的数据进行进一步的聚合。
所以建议超过500G的文件都进行文件切分,再导入。 作业调度 系统会限制一个集群内正在运行的Broker Load作业数量,以防止同时运行过多的Load作业。 首先,FE的配置参数:desired_max_waiting_jobs会限制一个集群内未开始或正在运行(作业状态为PEN