正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果compact无法解决HBase端口占用现象,说明HBase使用情况已经达到瓶颈,需考虑如下几点: table的Region数初始设置是否合适。 是否存在无用数据。 如果存在无用数据,可删除对应数据以减小HBase存储文件数量,如果以上情况都不满足,则需考虑扩容。
上述优化操作并不能解决全部的性能问题,对于以下场景仍然需要较多时间: 对于动态分区表,如果其分区数非常多,那么也需要执行较长的时间。 父主题: Spark SQL性能调优
ntpdate修改时间导致HDFS出现大量丢块 DataNode概率性出现CPU占用接近100%导致节点丢失 单NameNode长期故障时如何使用客户端手动checkpoint HDFS文件读写时报错“Failed to place enough replicas” 文件最大打开句柄数设置太小导致读写文件异常
default.test*:10 spark.prequery.maxThreads 预热时并发的最大线程数 50 spark.prequery.sslEnable 集群安全模式为true,非安全模式为false true spark.prequery.driver JDBCServer
若集群中Core节点数大于等于3,则HDFS默认副本数为3。 图3 HDFS架构 MRS支持HDFS组件上节点均衡调度和单节点内的磁盘均衡调度,有助于扩容节点或扩容磁盘后的HDFS存储性能提升。
所以可以理解为TM上的Slot个数代表了上面运行的任务线程数。 合理的Slots数量应该和CPU核数相同,在使用超线程时,每个Slot将占用2个或更多的硬件线程。
false jdbc.connection.pool.maxTotal JDBC连接池中最大连接数,默认值:8。 8 jdbc.connection.pool.maxIdle JDBC连接池中最大空闲连接数,默认值:8。
可能原因 HBase RegionServer数太少。 HBase 单个RegionServer上Region数过多。 HBase RegionServer堆大小较小。 资源不足。 相关参数配置不合理。
表1 参数说明 参数 描述 默认值 spark.history.retainedApplications HistoryServer缓存的Spark应用数,当需要缓存的应用个数超过此参数值时,HistoryServer会回收最先缓存的Spark应用。
使能容错机制时建议将作业的Map数设置为大于等于3,推荐在作业数据量大的场景下使用。
节点数 对应节点组中包含的节点数量。 付费类型 显示购买集群时的付费类型,包含“按需计费”和“包年/包月”。 通过Manager页面查看节点状态(MRS 3.x及之后版本) 登录FusionInsight Manager。 单击“主机”,查看主机列表信息。
“最大map数”:填写执行MapReduce任务的最大map数,默认值为“20”。 “单个map的最大带宽(MB/s)”:填写单个map最大带宽,默认值为“100”。 单击“确定”保存。 在恢复任务列表已创建任务的“操作”列,单击“执行”,开始执行恢复任务。
deserializer.maxBatchLine 1 按行解析最多行数,如果行数设置为多行,maxLineLength也应该设置为相应的倍数。 说明: 用户设置Interceptor时,需要考虑多行合并后的场景,否则会造成数据丢失。
在表的总数据行数达到数亿级别,需要优化状态后端参数来保持写入的性能。使用该索引无法支持Flink和Spark交叉混写。 对于数据总量持续上涨的表,采用Bucket索引时,须使用时间分区,分区键采用数据创建时间。
kinitKafka用户 创建一个Topic: sh kafka-topics.sh --create --topic 主题名称 --partitions 主题占用的分区数 --replication-factor 主题的备份个数 --zookeeper ZooKeeper角色实例所在节点
说明: 主HMaster的HeapSize为4GB的时候,HBase集群可以支持100000 Region数的规模。根据经验值,集群每增加35000个Region,HeapSize增加2GB,主HMaster的HeapSize不建议超过32GB。
表1 参数说明 参数 描述 默认值 spark.history.retainedApplications HistoryServer缓存的Spark应用数,当需要缓存的应用个数超过此参数值时,HistoryServer会回收最先缓存的Spark应用。
/setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: .
testdb1.testtb1 thread_num 并发导入线程数。 10 data_format 待导入数据的格式。 CSV is_security_cluster 是否为安全模式集群。
可以查看主题的分区数和备份数。 在主题列表单击指定主题的名称,可查看详细信息。 如果执行过以下几种操作: Kafka或者Zookeeper进行过扩容或缩容操作。 Kafka或者Zookeeper增加或者删除过实例。 重装Zookeeper服务。