检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了后续分析性能和数据的可靠性,一般使用HDFS进行存储。以HDFS存储来看,一个Hudi表的存储文件分为两类。
主机列表中包括节点名称/资源ID、IP、状态、规格、云硬盘、可用区等信息。 单击列表中指定的节点名称,查看单个节点状态及指标。 单击“监控”页签,可以查看当前节点的监控图表信息。
使用Flink Flink作业引擎概述 Flink用户权限管理 Flink客户端使用实践 创建FlinkServer作业前准备 创建FlinkServer作业 管理FlinkServer作业 Flink企业级能力增强 Flink运维管理 Flink性能调优 Flink客户端常见命令说明
使用Hive Hive用户权限管理 Hive客户端使用实践 快速使用Hive进行数据分析 Hive数据存储及加密配置 Hive on HBase 配置Hive读取关系型数据库 配置Hive读取Hudi表 Hive企业级能力增强 Hive性能调优 Hive运维管理 Hive常见SQL
使用MapReduce 配置使用分布式缓存执行MapReduce任务 配置MapReduce shuffle address 配置MapReduce集群管理员列表 通过Windows系统提交MapReduce任务 配置MapReduce任务日志归档和清理机制 MapReduce性能调优
Hive数据源 创建HetuEngine计算实例 添加HetuEngine数据源 配置HetuEngine物化视图 配置HetuEngine SQL诊断功能 开发和部署HetuEngine UDF 管理HetuEngine数据源 管理HetuEngine计算实例 HetuEngine性能调优
Hudi表 使用Hudi-Cli.sh操作Hudi表 Hudi写操作 Hudi读操作 Hudi数据管理维护 Hudi SQL语法参考 Hudi Schema演进 配置Hudi数据列默认值 Hudi支持Partial Update Hudi支持聚合函数 Hudi常见配置参数 Hudi性能调优
如果只有一个磁盘,配置了多个目录,性能提升效果不明显。 Collect小数据 大数据量不适用collect操作。
调优程序 您可以根据程序运行情况,对程序进行调优,使其性能满足业务场景诉求。 调优完成后,请重新进行编译和运行。 Spark2x性能调优 父主题: Spark2x开发指南(普通模式)
在有限的计算资源下,写入的桶数越少,性能越高。 父主题: Hudi数据表设计规范
对系统的影响 HDFS出现慢DataNode,会影响HDFS的数据读写性能。 可能原因 HDFS DataNode实例磁盘IO速率低、HDFS DataNode自身处理能力到达瓶颈。 HDFS各DataNode实例之间网络传输速率低。
综上所述,Superior Scheduler是一个高性能调度器,拥有丰富的调度策略,在功能、性能、资源利用率和扩展性方面都优于Capacity Scheduler。 支持CPU硬隔离 YARN无法严格控制每个container使用的CPU资源。
Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查询性能。被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域。
创建表时,排序键key不能太多,一般建议3~5个;太多key会导致数据写入较慢,影响数据导入性能。 不使用Auto Bucket,需按照已有的数据量来进行分区分桶,能更好的提升导入及查询性能。Auto Bucket会造成Tablet数量过多,最终导致有大量的小文件。
CarbonData故障排除 当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致 executor内存不足导致查询性能下降 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException
DataNode数据均衡 配置HDFS DiskBalancer磁盘均衡 配置HDFS Mover命令迁移数据 配置HDFS文件目录标签策略(NodeLabel) 配置NameNode内存参数 设置HBase和HDFS的句柄数限制 配置HDFS单目录文件数量 HDFS企业级能力增强 HDFS性能调优
适应网络变化:在网络条件不稳定或部分节点出现性能问题时,提高客户端的读取效率。 对系统的影响 多路读会增加网络流量和CPU使用率,由于需要处理更多的连接和请求,需要根据现网硬件及作业情况实际调整。例如:默认三副本的情况下启用多路读,组件内存至少需要设置为已有的三倍。
如果“table_blocksize”值太小,数据加载时,生成过多的小数据文件,可能会影响HDFS的使用性能。
调优程序 您可以根据程序运行情况,对程序进行调优,使其性能满足业务场景诉求。 调优完成后,请重新进行编译和运行。 Spark2x性能调优 父主题: Spark2x开发指南(安全模式)
相比于Hadoop,Spark拥有明显的性能优势。 父主题: 使用Spark/Spark2x