检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户问题 MRS集群如何访问ZooKeeper? 问题现象 在MRS的Master节点使用zkcli.sh访问ZooKeeper存在报错。 原因分析 用户使用的命令有误,造成报错的发生。 处理步骤 获取ZooKeeper的IP地址及端口信息,具体请参考如何获取ZooKeeper地址?。
0.1:21351,10.0.0.2:12000 authentication.type 登录认证的方式。 “kerberos”,表示使用安全模式,进行Kerberos认证。Kerberos认证提供两种认证方式:密码和keytab文件。 “simple”,表示使用普通模式,不进行Kerberos认证。
如果执行失败,请在执行目录的work_space/log_XXX下查看node.log日志。 配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。 批量升级MRS集群客户端 以待安装客户端的用户登录客户端下载节点。 执行以下命令进行升级。 sh client_batch_upgrade
k JDBC任务执行变慢或失败。 可能原因 该节点JDBCServer2x进程堆内存使用率过大,或配置的堆内存不合理,导致进程GC频繁。 处理步骤 检查GC时间 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,选中“ID”为“43013”的告警
导致本地磁盘的部分热数据会移动到OBS上,影响系统的读写性能。 可能原因 ClickHouseServer节点冷热分离配置的本地磁盘容量过小。 处理步骤 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看当前告警“定位信息”中的角色名以及确认主机名所在的IP地址。
对系统的影响 跨空间合并任务超时,会阻塞写数据,导致写操作的性能下降。 可能原因 该节点IoTDB跨空间合并任务较慢,需要进一步分析日志查看。 处理步骤 收集故障信息。 在FusionInsight Manager页面,选择“运维 > 告警 > 告警”,在实时告警列表中,单击此告警前的
n组件的时间会变长,可能达到小时级别;用户新添加任务提交到Yarn组件的时间变长,可能达到小时级别。 可能原因 瞬时提交作业的数量过多。 处理步骤 登录FusionInsight Manager,选择“集群 > 服务 > JobGateway ”。 选择“实例”页签,单击“添加实
64位系统:4194304(2的22次方) 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 检查系统环境是否异常。 联系运维人员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行2.b。 否,执行3。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置
等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行2。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
b主机名一致。 是,执行1.e。 否,执行2.a。 按ALM-12006 节点故障提供的步骤处理该告警。 在告警列表中查看“ALM-25500 KrbServer服务不可用”告警是否清除。 是,处理完毕。 否,执行3。 检查OLdap服务是否不可用。 登录MRS集群详情页面,选择“告警管理”。
阈值”告警。 是,执行2。 否,执行4。 参考“ALM-16005 Hive服务进程堆内存使用超出阈值”的处理步骤处理该故障。 在告警列表中,查看该告警是否清除。 是,处理完毕。 否,执行4。 查看元数据库是否异常。 联系集群元数据库管理员查看元数据库是否有异常。 是,执行5。 否,执行6。
对系统的影响 用户无法执行新的Storm任务。 可能原因 集群中Supervisor处于异常状态。 集群中Supervisor的状态正常,但是处理能力不足。 处理步骤 检查Supervisor状态。 登录MRS集群详情页面,选择“组件管理”。 选择“Storm > Supervisor”,进入Storm服务管理页面。
可能导致上层服务无法连接DBService的数据库,影响正常业务。 可能原因 数据库连接数使用过多。 数据库连接数最大值设置不合理。 告警阈值配置或者平滑次数配置不合理。 处理步骤 检查数据连接数是否使用过多 在FusionInsight Manager主页,单击左侧服务列表的DBService服务,进入DBService监控页面。
如何开发Flume第三方插件 该操作指导用户进行第三方插件二次开发。 本章节适用于MRS 3.x及之后版本。 将自主研发的代码打成jar包。 安装Flume服务端或者客户端,如安装目录为“/opt/flumeclient”。 建立插件目录布局。 进入“Flume客户端安装目录/f
如何开发Flume第三方插件 安装Flume客户端,如安装目录为“/opt/flumeclient”。 将自主研发的代码打成jar包。 建立插件目录布局。 进入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d”路径下,使用以下命令建立目录,可根据实际业务进行命名,无固定名称:
如何在不同的namespaces上逻辑地分割数据 问题 如何在不同的namespaces上逻辑地分割数据? 回答 配置: 要在不同namespaces之间逻辑地分割数据,必须更新HDFS,Hive和Spark的“core-site.xml”文件中的以下配置。 改变Hive组件将改
系统每30秒周期性检测每个HBase服务的RegionServer实例的RPC读队列待处理任务个数,当检测到某个RegionServer上的RPC读队列待处理任务个数连续10次超出阈值时产生该告警。 当RegionServer实例的RPC读队列待处理任务个数小于或等于阈值时,告警消除。 该告警仅适用于MRS
直接内存溢出可能导致服务崩溃,Flume实例不可用。 可能原因 节点Flume实例直接内存使用率过大,或配置的直接内存不合理,导致使用率超过阈值。 处理步骤 检查直接内存使用率。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > Flume直接内存使用率
单个CCWorker内部平均read请求处理时延超过最大阈值后,可能会出现缓存性能下降。 可能原因 上层计算服务(Spark/Hive/HetuEngine等)对MemArtsCC组件的并发请求数激增,或者业务突增服务负载增加,或者磁盘负载增加乃至故障等。 处理步骤 登录FusionInsight
产生告警的主机名 对系统的影响 用户执行提交作业失败。例如:通过REST接口提交作业可能失败。 可能原因 该节点JobServer实例存在异常。 处理步骤 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > JobServer提交作业接口失败率 > 定位