检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用lsof -i:21302(MRS1.7.X及以后端口号是16020)查看到pid,然后根据pid查看到相应的进程,发现RegionServer的端口被DFSZkFailoverController占用。 查看“/proc/sys/net/ipv4/ip_local_port_range”显示为“9000
DBService进程没有停止成功,使用的端口未释放。 解决办法 该解决办法以20051端口被占用为例,20050端口被占用的解决办法与该办法类似。 以root用户登录DBService安装报错的节点主机,执行命令:netstat -nap | grep 20051查看占用20051端口的进程。 使用ki
修改该主机的随机端口范围配置到正常范围,该告警会自动清除。 告警属性 告警ID 告警级别 是否自动清除 12064 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响
方法2:编写HBase客户端代码,调用HBaseAdmin类中的compact方法触发HBase的compaction动作。 如果compact无法解决HBase端口占用现象,说明HBase使用情况已经达到瓶颈,需考虑如下几点: table的Region数初始设置是否合适。 是否存在无用数据。
方法2:编写HBase客户端代码,调用HBaseAdmin类中的compact方法触发HBase的compaction动作。 如果compact无法解决HBase端口占用现象,说明HBase使用情况已经达到瓶颈,需考虑如下几点: table的Region数初始设置是否合适。 是否存在无用数据。
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。
定位办法 使用top命令查看CPU使用率高的进程号。 查看此进程中占用CPU高的线程。 使用命令top -H -p <PID>即可打印出某进程<PID>下的线程的CPU耗时信息。 一般某个进程如果出现问题,是因为某个线程出现问题了,获取查询到的占用CPU最高的线程号。 或者使用命令ps
FE通过MySQL协议查询连接端口。 rpc_port 9020 29981 FE服务的Thrift Server端口。 be_port 9060 29984 BE上Thrift Server的端口号,用于接收来自FE的请求。 brpc_port 8060 29987 BE上的BRPC的端口,用于各BE实例之间进行通讯连接。
DataNode概率性出现CPU占用接近100%导致节点丢失 问题背景与现象 DataNode概率性出现CPU占用接近100%,导致节点丢失(ssh连得很慢或者连不上)。 图1 DataNode出现CPU占用接近100% 原因分析 DataNode有许多写失败的日志。 图2 DataNode写失败的日志
Knox进程占用内存高 用户问题 knox进程占用内存高。 问题现象 主Master节点内存使用率高,用top -c命令查看到占用内存较高的进程中有knox进程,且此进程占用内存超过4 GB。 原因分析 knox进程没有单独配置内存,进程会自动根据系统内存大小按照比例划分可用内存,导致knox占用内存大。
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 用户无法使用Kudu服务。 可能原因 存在KuduTserver实例CPU占用率过高。 处理步骤
执行计划的效率,还提供了catalog,relation等缓存机制。长连接场景下这些缓存中的某些缓存是不会主动释放的,因此可能导致长连接占用大量的内存不释放。 PMS是MRS的监控进程,此进程会经常创建表分区或者新表,由于PostgreSQL会缓存当前会话访问过的对象的元数据,且
来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 用户无法使用Kudu服务。 可能原因 存在KuduTserver实例内存占用率过高。 处理步骤
sh命令,查看集群中的HDFS版本号。 根据版本号确认开源组件的端口号,查询开源组件的端口号可参考开源组件端口列表,获取对应版本的HDFS端口号。 执行netstat -anp|grep ${port}命令,查看组件的默认端口号是否存在。 如果不存在,说明用户修改了默认的端口号。请修改为默认端口,再重新连接HDFS。
集群启动Yarn后产生大量作业占用资源 问题现象 MRS 2.x及之前版本集群,用户的MRS集群启动Yarn后产生大量作业,占用集群计算资源。 原因分析 集群安全组入口方向的Any协议源地址配置为0.0.0.0/0,导致集群可能遭受了外部网络攻击。 处理步骤 登录MRS集群页面,
定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时
所示。 其中Host为获取的Worker运行的主机IP地址,Port为调试的端口号(确保该端口在运行机器上没被占用)。 图3 配置参数 当改变Port端口号时,在WORKER_GC_OPTS中追加的调试参数也要跟着改变,比如Port设置为8011,对应的调试参数则变更为-Xdebug
所示。 其中Host为获取的Worker运行的主机IP地址,Port为调试的端口号(确保该端口在运行机器上没被占用)。 图3 配置参数 当改变Port端口号时,在WORKER_GC_OPTS中追加的调试参数也要跟着改变,比如Port设置为8011,对应的调试参数则变更为-Xdebug
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 内存使用过高,部分查询任务可能因为内存不足而失败。
properties中的配置项log.dirs获得数据存储目录。 其中配置文件路径请根据时间环境的集群版本修改,当磁盘有多块时,该配置项有多个,逗号间隔。 使用cd命令进入使用率较高的磁盘对应的3中获取的数据存储目录下。 使用du -sh *命令打印出当前topic的名称及大小。 由于