检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
典型场景:从Hive导出数据到关系型数据库 操作场景 该任务指导用户使用Loader将数据从Hive导出到关系型数据库。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
典型场景:从关系型数据库导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
为什么含转义字符的输入数据记录到Bad Records中的值与原始数据不同? 当初始Executor为0时,为什么INSERT INTO/LOAD DATA任务分配不正确,打开的task少于可用的Executor? 为什么并行度大于待处理的block数目时,CarbonData仍需要额外的executor?
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查主备节点磁盘空间 分别登录主备OMS节点,查看磁盘使用信息。 执行以下命令,查看“/”目录的可用空间是否大于30GB。 df -h / 否,清理磁盘空间。 是,检查结束。
查看该告警附加信息是否存在“no enough space”关键字。 是,执行9。 否,执行11。 参考以下操作,进行磁盘扩容(仅针对MRS 3.1.2及之前版本)或调小最大审计日志备份数量配置项。 对OMS节点进行磁盘扩容。 执行以下命令,然后调小最大审计日志备份数量配置项“MAX_NUM_BK_AUDITLOG”的值。
使用Loader从关系型数据库导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
Server 如果所有的任务(map/reduce)需要读写数据至磁盘,多个进程将会同时访问一个磁盘。这将会导致磁盘的IO性能非常的低下。为了改善磁盘的性能,请确保客户端并发访问磁盘的数不大于3。 最大并发的container数量应该为[2.5 * Hadoop中磁盘配置数 ]。 mapreduce
ClickHouse集群管理 ClickHouse集群配置说明 ClickHouse增加磁盘容量 父主题: ClickHouse运维管理
Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程 操作步骤 Map阶段的调优
Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task拷贝数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程 操作步骤 Map阶段的调优
HDFS运维管理 HDFS常用配置参数 HDFS日志介绍 查看HDFS容量状态 更改DataNode的存储目录 调整DataNode磁盘坏卷信息 配置HDFS token的最大存活时间 使用distcp命令跨集群复制HDFS数据 配置NFS服务器存储NameNode元数据 父主题:
HDFS运维管理 HDFS常用配置参数 HDFS日志介绍 规划HDFS容量 更改DataNode的存储目录 调整DataNode磁盘坏卷信息 配置HDFS token的最大存活时间 使用distcp命令跨集群复制HDFS数据 配置NFS服务器存储NameNode元数据 父主题: 使用HDFS
HDFS企业级能力增强 配置DataNode节点容量不一致时的副本放置策略 配置DataNode预留磁盘百分比 配置从NameNode支持读操作 配置NameNode黑名单功能 配置Hadoop数据传输加密 父主题: 使用HDFS
ClickHouse常见问题 在System.disks表中查询到磁盘status是fault或者abnormal 如何迁移Hive/HDFS的数据到ClickHouse 使用辅助Zookeeper或者副本数据同步表数据时,日志报错 如何为ClickHouse用户赋予数据库级别的Select权限
设置是否启用WAL文件耐久性以将WAL数据持久化到磁盘。如果将该参数设置为“true”,则性能将受到影响,因为每个WAL的编辑都会被Hadoop fsync同步到磁盘上。 false hbase.hfile.hsync 设置是否启用Hfile耐久性以将数据持久化到磁盘。如果将该参数设置为“true”
HDFS客户端使用实践 快速使用Hadoop 配置HDFS文件回收站机制 配置HDFS DataNode数据均衡 配置HDFS DiskBalancer磁盘均衡 配置HDFS Mover命令迁移数据 配置HDFS文件目录标签策略(NodeLabel) 配置NameNode内存参数 设置HBase和HDFS的句柄数限制
例”的值是否持续上升: 是,执行4。 否,结束。 观察RegionServer所在主机的图表“磁盘IO利用率”的值是否超过90%: 是,磁盘IO已达到瓶颈,考虑减小写入速度或者扩容磁盘。 否,结束。 父主题: HBase性能调优
问题背景与现象 HDFS的DataNode数据分布不均匀,在某节点上磁盘使用率很高,甚至达到100%,其他节点空闲很多。 原因分析 客户端安装在该节点,根据HDFS数据副本机制,第一个副本会存放在本地机器,最终导致节点磁盘被占满,而其他节点空闲很多。 解决办法 针对已有不平衡的数据,执行balance脚本均衡数据。
设置是否启用WAL文件耐久性以将WAL数据持久化到磁盘。若将该参数设置为true,则性能将受到影响,原因是每个WAL的编辑都会被hadoop fsync同步到磁盘上。 false hbase.hfile.hsync 设置是否启用Hfile耐久性以将数据持久化到磁盘。若将该参数设置为true,则性能
EditLog不连续导致NameNode启动失败 当备NameNode存储元数据时,断电后备NameNode启动失败 dfs.datanode.data.dir中定义的磁盘数量等于dfs.datanode.failed.volumes.tolerated的值时,DataNode启动失败 HDFS调用FileI