正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CPU核数约等于: 并行任务数x扫描仪线程数。其中并行任务数为分割数和执行器数x执行器核数两者之间的较小值。 数据加载性能调优 数据加载性能调优与查询性能调优差异很大。跟查询性能一样,数据加载性能也取决于可达到的并行性。在数据加载情况下,工作线程的数量决定并行的单元。
CPU核数约等于: 并行任务数x扫描仪线程数。其中并行任务数为分割数和执行器数x执行器核数两者之间的较小值。 数据加载性能调优 数据加载性能调优与查询性能调优差异很大。跟查询性能一样,数据加载性能也取决于可达到的并行性。在数据加载情况下,工作线程的数量决定并行的单元。
图2 查看历史记录 表1 参数说明 名称 说明 行/文件 读取数 从输入源中读取的行数(文件数)。 行/文件 写入数 写入到输出源的行数(文件数)。 行/文件 跳过数 转换过程中记录的坏行数(文件数):输入格式不正确,无法进行转换。 转换过程中配置过滤条件后跳过的行数。
HiveServer2-Handler-Pool线程数(按IP) 周期内统计并显示Top用户的HiveServer2-Handler-Pool数监控。 MetaStore使用数(按IP) Hive周期内统计并显示Top用户的MetaStore使用数。
图2 查看历史记录 表1 参数说明 名称 说明 行/文件 读取数 从输入源中读取的行数(文件数)。 行/文件 写入数 写入到输出源的行数(文件数)。 行/文件 跳过数 转换过程中记录的坏行数(文件数):输入格式不正确,无法进行转换。 转换过程中配置过滤条件后跳过的行数。
表2 DataNode支持规格 项目 规格 单个DataNode实例支持最大Block数 5,000,000 单个DataNode实例上单个磁盘支持最大Block数 500,000 单个DataNode实例支持最大Block数需要的最小磁盘数 10 表3 DataNode节点数规划
在资源计划时间内,集群Task节点数量大于最大节点数时,弹性伸缩会将集群Task节点一次性缩容到最大节点数。最小节点数必须小于或等于最大节点数。 父主题: MRS集群管理
命令 参数及说明 命令作用 hdfs quickcmds [-t threadsNumber] [-p principal] [-k keytab] -setrep <rep> <path> ... threadsNumber:并发线程数,默认为本机CPU核数 principal:
命令 参数及说明 命令作用 hdfs quickcmds [-t threadsNumber] [-p principal] [-k keytab] -setrep <rep> <path> ... threadsNumber:并发线程数,默认为本机CPU核数 principal:
表2 DataNode支持规格 项目 规格 单个DataNode实例支持最大Block数 5,000,000 单个DataNode实例上单个磁盘支持最大Block数 500,000 单个DataNode实例支持最大Block数需要的最小磁盘数 10 表3 DataNode节点数规划
配置TaskManager Slot数。 每个TaskManager多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用TaskManager的内存,所以要在内存和核数之间做好平衡。
配置TaskManager Slot数。 每个TaskManager多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用TaskManager的内存,所以要在内存和核数之间做好平衡。
示例: 当前表bucket数为3,同时写入分区数为2, 建议入库Spark任务配置的core数量大于等于3*2。
配置Executor核数。 每个Executor多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。
配置项 参考值 作用 merge_tree.max_replicated_merges_with_ttl_in_queue CPU核数一半 在ReplicatedMergeTree队列中允许同时使用TTL合并部件的任务数。
0 300 否 max_threads 执行请求的最大线程数。默认情况下是按照机器CPU核数自动确定的。单并发情况下线程数越大越好(该值要小于CPU核数),多并发情况建议设置为CPU核数/2的值。
“Background线程数”和“Background线程数使用率”是否下降。 是,执行7。 否,执行5。 检查HiveServer background线程池容量。
配置Executor核数。 每个Executor多个核同时能跑多个task,相当于增大了任务的并发度。但是由于所有核共用Executor的内存,所以要在内存和核数之间做好平衡。
执行cat /proc/sys/fs/file-nr查看已使用句柄数和最大句柄数。第一个值为已使用句柄数,第三个值为最大句柄数,计算使用率是否超过设定阈值。 # cat /proc/sys/fs/file-nr 12704 0 640000 是,执行9。 否,执行11。
配置项 参考值 作用 merge_tree.max_replicated_merges_with_ttl_in_queue CPU核数一半 在ReplicatedMergeTree队列中允许同时使用TTL合并部件的任务数。