检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Start参数值小于1,比如0.8,则Reduce就可以利用集群剩余资源。 操作步骤 参数入口: 进入Mapreduce服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。 参数 描述 默认值 mapreduce.job.reduce.slowstart.completedmaps
se”。该参数主要用于避免导入失败,以提高导入的稳定性。 max_body_size:用于设置RPC的包大小阈值 ,默认为3GB。如果查询中带有超大 String 类型,或者bitmap类型数据时,可以通过修改该参数规避。 父主题: Doris常见问题
改善数据分块不均匀的情况,多次验证发现配置为质数或者奇数效果比较好。 在Driver端的“spark-defaults.conf”配置文件中调整如下参数。 表1 参数说明 参数 描述 默认值 spark.sql.shuffle.partitions shuffle操作时,shuffle数据的分块数。
HetuEngine域名修改后需要做什么 问题 用户修改域名后,会导致已安装的客户端配置和数据源配置失效,且新创建的集群不可用。对接不同域的数据源时,HetuEngine会自动的合并krb5.conf文件。域名修改后,kerberos认证的域名会发生变化,所以此前对接的数据源信息会失效。
dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。 因此配置如下: 例如,如果机器有如下磁盘:
存堆大小是1GB。 操作步骤 通过调大如下的参数来进行AM调优。 参数入口: 在Yarn客户端的“mapred-site.xml”配置文件中调整如下参数。“mapred-site.xml”配置文件在客户端安装路径的conf目录下,例如“/opt/client/Yarn/config”。
shuffle.partitions”参数值为200,但distribute by字段的cardinality只有100,则输出的200个文件中,只有其中100个文件有数据,剩下的100个文件为空文件。也就是说,如果选取的字段的cardinality过低,如1,则会造成严重的数据倾斜,从而严重影响查询性能。
dir被配置在一个磁盘分区内,DataNode的容量计算将会出错。 回答 目前容量计算是基于磁盘的,类似于Linux里面的df命令。理想状态下,用户不会在同一个磁盘内配置多个data.dir,否则所有的数据都将写入一个磁盘,在性能上会有很大的影响。 因此配置如下: 例如,如果机器有如下磁盘:
将实时结果打印输出,如: apple:1 orange:1 apple:2 功能分解 根据上述场景进行功能分解,如表1所示。 表1 在应用中开发的功能 序号 步骤 代码示例 1 创建一个Spout用来生成随机文本 请参见创建Storm Spout 2 创建一个Bolt用来将收到的随机文本拆分成一个个单词
以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testModifyTable方法中 public void testModifyTable() { LOG.info("Entering testModifyTable
表1 调优参数 配置参数 缺省值 调优场景 num.recovery.threads.per.data.dir 10 在Kafka启动过程中,数据量较大情况下,可调大此参数,可以提升启动速度。 background.threads 10 Broker后台任务处理的线程数目。数据量
长时,可检查该Hudi表compaction是否正常。因为当长时间不做compaction时list性能会变差。 在事实表与维度表关联场景中可以按表设置TTL降低状态后端数据量 具体使用指导参考通过表级TTL进行状态后端优化。 合理设置并行度 任务运行的速度和并行度相关,一般来说
以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testMultiSplit方法中。 public void testMultiSplit() { LOG.info("Entering testMultiSplit
以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testCreateTable方法中。 public void testCreateTable() { LOG.info("Entering testCreateTable
以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testCreateTable方法中。 public void testCreateTable() { LOG.info("Entering testCreateTable
Spark的Shuffle过程需要写本地磁盘,Shuffle是Spark性能的瓶颈,I/O是Shuffle的瓶颈。配置多个磁盘则可以并行的把数据写入磁盘。如果节点中挂载多个磁盘,则在每个磁盘配置一个Spark的localDir,这将有效分散Shuffle文件的存放,提高磁盘I/O的效率。如果只有一个磁盘,配置了多个目录,性能提升效果不明显。
TSeriesPartitionSlot size + TConsensusGroupId size)= 0.68G IoTDBServer容量规格 IoTDB中数据以region分配在IoTDBServer上,region副本数默认是“3”,最终在IoTDBServer文件系统上表现为3个文件。上限
cleaning操作只有在满足触发条件后才会对分区的老版本数据文件进行清理,不满足触发条件虽然执行命令成功也不会执行清理。 系统响应 可在客户端中查看查询结果。 父主题: Hudi CALL COMMAND语法说明
(table => 'hudi_table1', instant => '20220913144936897'"); 系统响应 可在客户端中查看查询结果。 父主题: Hudi CALL COMMAND语法说明
adminZkClient.createTopic(topic, partitions, replicas) Partition的副本数不要超过节点个数 Kafka中Topic的Partition的副本是为了提升数据的可靠性而存在的,同一个Partition的副本会分布在不同的节点,因此副本数不允许超过节点个数。