检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提交作业后,在Yarn的WEB UI未找到对应作业的application_id,说明该作业没有提交成功,可登录集群主Master节点,查看提交作业进程日志“/var/log/executor/logs/exe.log”。 父主题: 作业管理类
取数据,当数据量达到一个级别(10T级别),会出现NodeManager单点瓶颈(ShuffleService服务在NodeManager进程中),就会出现某些Task获取数据超时,从而出现该问题。 因此,当数据量达到10T级别以上的Spark任务,建议用户关闭ShuffleSe
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 当前FE处理能力不足,影响业务的查询速度。 可能原因 Doris集群并发业务过大,FE进程内存不足等导致Master FE的处理能力不足。 处理步骤 检查GC时间。 在FusionInsight Manager首页,选择“运维 >
询。 分布式数据查询:利用Spark实现海量数据的分析查询。 实时数据处理 实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景
不支持 权限设置(添加删除用户、用户组、角色) 不支持 支持 集群组件数据备份恢复 不支持 支持 Manager操作审计日志 不支持 支持 资源监控 支持 支持 MRS集群管理对象说明 MRS集群包含了各类不同的基本对象,不同对象的描述介绍如表2所示。 表2 MRS基本对象概览 对象 描述
重启Tomcat,并等待启动成功。 以omm用户执行以下命令,查询出Tomcat进程的PID号。 ps -ef|grep apache-tomcat 使用kill -9 PID命令强制停止查询出来的Tomcat进程,例如: kill -9 1203 执行以下命令进行重启。 sh ${BI
角色作为授权主体,不支持IAM用户或IAM用户组作为授权主体。 PolicySync进程不会修改集群内RangerAdmin Hive模块的默认策略,默认策略仍然生效。 PolicySync进程启动后,会与LakeFormation实例的权限进行比对,删除LakeFormatio
在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息响应缓慢,导致FusionInsight健康检查认为NodeManager进程退出,强制重启NodeManager,导致上述问题产生。 解决方式: 调整NodeManager的内存,数据量比较大(1T以上)的情况下,
在告警列表中,查看是否有“ALM-12007 进程故障”告警产生。 是,执行1.e。 否,执行2.a。 在“ALM-12007 进程故障”的“告警详情”区域,查看定位信息的“ServiceName”是否为“ZooKeeper”。 是,执行1.f。 否,执行2.a。 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。
Manager界面,选择“运维 > 告警 > 告警”,在告警列表中查看是否上报“Hive服务进程堆内存使用超出阈值”告警。 是,执行2。 否,执行4。 参考“ALM-16005 Hive服务进程堆内存使用超出阈值”的处理步骤处理该故障。 在告警列表中,查看该告警是否清除。 是,处理完毕。
角色作为授权主体,不支持IAM用户或IAM用户组作为授权主体。 PolicySync进程不会修改集群内RangerAdmin Hive模块的默认策略,默认策略仍然生效。 PolicySync进程启动后,会与LakeFormation实例的权限进行比对,删除LakeFormatio
新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 支持EVS磁盘分区容量扩容。 支持D系列磁盘热插拔。 支持运维巡检特性。 支持监控指标上报CES。 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系
re节点、Task节点。 表1 集群节点分类 节点类型 功能 Master节点 MRS集群管理节点,节点上部署OMSServer负责管理和监控集群。 在MRS集群创建成功后,集群内的节点名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。
在数据量比较大(1T以上)的Spark任务下,内存严重不足,消息响应缓慢,导致FusionInsight健康检查认为NodeManager进程退出,强制重启NodeManager,导致上述问题产生。 解决方法: 调整NodeManager的内存,数据量比较大(1T以上)的情况下,
在告警列表中,查看是否有“ALM-12007 进程故障”告警产生。 是,执行6。 否,执行9。 在告警列表中,单击“进程故障”告警所在行的。从“定位信息”中查看产生该告警的“服务名”是否为“ZooKeeper”。 是,执行7。 否,执行9。 参考ALM-12007 进程故障告警帮助指导处理该告警。
通过JDBC连接方式,使用用户名和密码连接到HetuEngine,组装对应的SQL发送到HetuEngine执行,并能查询对应的SQL语句执行进度和状态。 import io.XXX.jdbc.XXXResultSet; import java.sql.Connection; import
服务。 sh /opt/Bigdata/om-server/om/sbin/restart-controller.sh 在主OMS节点查看进程。 ps -ef |grep ControllerService 如果包含参数“ -Dfastjson.parser.safeMode=t
maxConnections</name> <value>64</value> </property> 以omm用户登录主OMS节点,执行以下命令重启knox进程。 sh /opt/knox/bin/restart-knox.sh 等待五分钟,查看是否可以正常访问组件WebUI页面。 是,处理完毕。
Manager的告警列表中,查看是否有“进程故障”告警产生。 是,执行4。 否,执行7。 在“ALM-12007 进程故障”的“定位信息”中查看“服务名”是否为“ZooKeeper”。 是,执行5。 否,执行7。 参考ALM-12007 进程故障的处理步骤处理该故障。 在告警列表中
$OMS_RUN_PATH/workspace/ha/module/harm/plugin/script/tomcat start 在主OMS节点查看进程: ps -ef |grep tomcat | grep om-server 如果包含参数“-Dfastjson.parser.safeM