检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。
检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从FTP服务器导入数据时,确保FTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。
说明: 不推荐将此参数值设置为0,这样系统的老化文件会一直存储下去,导致集群的磁盘空间不足。 60 父主题: 使用HDFS
检查转储目录的磁盘空间是否足够。 根据转储配置页面中当前的转储目录,以root用户登录到第三方服务器,使用df命令检查第三方服务器的转储目录的磁盘空间是否大于100MB。 是,执行11。 否,执行9。
如果第三方服务器的转储目录磁盘空间不足,或者用户修改了转储服务器的用户名、密码或转储目录,将会导致审计日志转储失败。 告警属性 告警ID 告警级别 可自动清除 12001 一般 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。
检查磁盘空间是否不足。 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。 是,执行2.b。 否,执行3。 按ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
比较这2个节点磁盘空间使用比例,如果磁盘空间使用率的相差小于5%,随机存放到第一个节点。
比较这2个节点磁盘空间使用比例,如果磁盘空间使用率的相差小于5%,随机存放到第一个节点。
此机制允许用户定义不同优先级的Job,后启动的高优先级Job能够获取运行中的低优先级Job释放的资源;低优先级Job未启动的计算容器被挂起,直到高优先级Job完成并释放资源后,才被继续启动。 该特性使得业务能够更加灵活地控制自己的计算任务,从而达到更佳的集群资源利用率。
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态?
YARN资源池的所有节点都被加入黑名单,任务一直处于运行状态 问题 为什么YARN资源池的所有节点都被加入黑名单,而YARN却没有释放黑名单,导致任务一直处于运行状态?
MRS集群更换磁盘(适用于2.x及之前) 用户问题 磁盘无法访问。 问题现象 客户创建本地盘系列MRS集群,其中1个Core节点的磁盘存在硬件损坏,导致读取文件失败。 原因分析 磁盘硬件故障。 处理步骤 该指导适用于MRS 3.x之前版本分析集群,如需为流式集群或混合集群更换磁盘,
对系统的影响 Flume Channel的磁盘空间使用量有继续增长的趋势,将会使数据导入到指定目的地的时间增长,当Flume Channel的磁盘空间使用量达到100%时会导致Flume Agent进程暂停工作。 可能原因 Flume Sink故障,导致数据无法发送。
ALM-12017 磁盘容量不足 告警解释 系统每30秒周期性检测磁盘使用率,并把磁盘使用率和阈值相比较。磁盘使用率有一个默认阈值,当检测到磁盘使用率超过阈值时产生该告警。 平滑次数为1,主机磁盘某一分区使用率小于或等于阈值时,告警恢复;平滑次数大于1,主机磁盘某一分区使用率小于或等于阈值的
如果没有足够的硬盘空间或者CPU,试着增加新的数据节点或确保资源是可用的(磁盘空间或CPU)。 如果网络问题,确保网络是可用的。 父主题: 使用HDFS
MRS集群更换磁盘(适用于3.x) 用户问题 磁盘无法访问。 问题现象 客户创建本地盘系列MRS集群,其中1个Core节点的磁盘存在硬件损坏,导致读取文件失败。 原因分析 磁盘硬件故障。 处理步骤 该指导适用于本地盘系列(d/i/ir/ki系列)MRS集群,针对Core、Task类型节点的磁盘存在硬件故障
因为日志占用了一部分存储空间,建议管理员清除比较久远的操作日志释放资源空间。 日志文件较大,可以将此文件目录添加到“/etc/logrotate.d/syslog”中,让系统做日志老化 ,定时清理久远的日志 。
ALM-38009 Broker磁盘IO繁忙(适用于MRS 3.1.0之后版本) 告警解释 系统每60秒周期性检测Kafka各个磁盘的IO情况,当检测到某个Broker上的Kafka数据目录磁盘IO超出阈值(默认80%)时,产生该告警。 平滑次数为3,当该磁盘IO低于阈值(默认80%
对系统的影响 上报DataNode块数超过阈值告警时,表示该DataNode节点上块数太多,继续写入可能会由于磁盘空间不足导致写入HDFS数据失败。 可能原因 告警阈值配置不合理。 DataNode节点间数据倾斜。 HDFS集群配置的磁盘空间不足。
如果有,需要执行以下命令将procedure lock释放: hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar bypass -o pid 查看State是否处于Bypass状态,如果界面上的procedures一直处于