检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果原始文件超过该值,则需要适当调整该参数值。 由于Stream Load是由BE进行导入并分发数据,建议导入数据量在1G到10G之间。由于默认最大Stream Load的导入数据量为10G,所以如果要导入超过10G的文件需要修改BE的配置参数“streaming_load_max_mb”。 步骤2:创建Doris数据表及CSV文件
Manager)的HA解决方案,如图2所示。主备NameNode之间通过一组JournalNode同步元数据信息。 通常配置奇数个(2N+1个)JournalNode,且最少要运行3个JournalNode。这样,一条元数据更新消息只要有N+1个JournalNode写入成功就认为数据写入成功,此时最多容忍N个Jo
HDFS Colocation 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
Load导入Doris数据需依赖客户端读取,再推送到Doris。Broker Load则是将导入请求发送给Doris,由Doris主动拉取数据,因此如果要导入的数据存储在对象存储中,使用Broker Load是最便捷的。使用Broker Load方式,数据就不需要经过客户端,而由Doris直接读取导入。
旧版本 state.backend.rocksdb.metrics.estimate-live-data-size true 监测实时数据量,单位:字节(由于空间放大,通常小于SST文件大小) state.backend.rocksdb.metrics.total-sst-files-size
在aggregate和join等操作前将数据过滤来减少计算的数据量 提前过滤可以减少在shuffle阶段前的数据量,减少网络IO,从而提升查询效率。 比如在表join前先过滤数据比在ON和WHERE时过滤可以有效较少join数据量。因为执行顺序从发生shuffle再filter变成了先发生filter再shuffle。
根据连接数据源的用户名密码修改。 (可选)配置GaussDB用户信息,参考表2。 “GaussDB用户信息配置”与“HetuEngine-GaussDB用户映射配置”要搭配使用,HetuEngine在对接的GaussDB数据源时,通过用户映射,使得HetuEngine的用户具备与GaussDB数据源被映射的
行增量备份时备份任务将失败,需要重新创建Hive的备份任务。如果下次执行全量则备份正常。 通过Manager备份功能对Hive表层级的HDFS目录做备份后,Hive表将无法被删除重建。 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
越多时,可以适当调大HMaster的GC_OPTS参数。 RegionServer:RegionServer需要的内存一般比HMaster要大。在内存充足的情况下,HeapSize可以相对设置大一些。 说明: 主HMaster的HeapSize为4G的时候,HBase集群可以支持100000
越多时,可以适当调大HMaster的GC_OPTS参数。 RegionServer:RegionServer需要的内存一般比HMaster要大。在内存充足的情况下,HeapSize可以相对设置大一些。 说明: 主HMaster的HeapSize为4GB的时候,HBase集群可以支持100000
block的大小很重要,需要在提高并行性,进行shuffle操作的数据量和聚合表的大小之间达到平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因此,要确保Executor数乘以Execut
block的大小很重要,需要在提高并行性,进行shuffle操作的数据量和聚合表的大小之间达到平衡。 分割和Executors的关系 如果分割数小于等于Executor数乘以Executor核数,那么任务将以并行方式运行。否则,某些任务只有在其他任务完成之后才能开始。因此,要确保Executor数乘以Execut
决定查询模式,包括仅查询热存储、仅查询冷存储或同时查询冷存储和热存储。如果查询时未限定时间范围,则会导致查询冷数据。在这种情况下,查询吞吐量会受到冷存储的限制。 冷存储中的数据常用于归档,会很少访问。如果冷存储中的数据被大量频繁请求访问,请检查冷热数据边界(COLD_BOUNDA
hbase.zkquorum 仅在索引类型为HBase时适用,必填选项。要连接的HBase ZK Quorum URL。 无 hoodie.index.hbase.zkport 仅在索引类型为HBase时适用,必填选项。要连接的HBase ZK Quorum端口。 无 hoodie.index
已创建的HBase备份任务,如果本次备份任务在备集群的备份数据丢失,当下次执行增量备份时备份任务将失败,需要重新创建HBase的备份任务。如果下次执行全量则备份正常。 前提条件 如果数据要备份至远端HDFS中,需满足以下条件: 需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。 如果主集群部署为安全
and Loading)操作。对庞大的数据集查询需要耗费大量的时间去处理,在许多场景下,可以通过建立Hive分区方法减少每一次扫描的总数据量,这种做法可以显著地改善性能。 Hive的分区使用HDFS的子目录功能实现,每一个子目录包含了分区对应的列名和每一列的值。当分区很多时,会有