检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以root用户登录任意一个Master节点,切换到omm用户。 su - omm 使用如下命令查看当前节点是否为OMS主节点。 sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh 回显active即为主节点,否则请登录另一个Master节点。 图1 oms主节点 进入“
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录 问题 系统长时间运行后,在客户端安装节点的/tmp目录下,发现残留了很多blockmgr-开头和spark-开头的目录。 图1 残留目录样例 回答 Spark任务在运行过程中,driver会
x及以前版本) 告警解释 系统每30秒周期性检测丢失的NodeManager节点数,并把丢失的节点数和阈值相比较。“丢失的节点数”指标默认提供一个阈值范围。当检测到“丢失的节点数”的值超出阈值范围时产生该告警。 当“丢失的节点数”的值小于或等于阈值范围时,告警自动清除。 告警属性 告警ID 告警级别
master_node_default_group节点组(简称Master节点组): 节点个数:3 节点规格:c6.2xlarge.2(8vCPUs,16GB) 系统盘:超高IO,480GB 数据盘:超高IO,600GB core_node_analysis_group节点组(简称Core节点组): 节点个数:3个 节点规格:c6
x及以前版本) 告警解释 系统每30秒周期性检测异常NodeManager节点数,并把异常节点数和阈值相比较。“非健康的节点数”指标默认提供一个阈值范围。当检测到“非健康的节点数”的值超出阈值范围时产生该告警。 当“非健康的节点数”的值小于或等于阈值范围时,告警自动清除。 告警属性 告警ID
监控能力,帮助用户监控集群中大数据组件和节点的健康状态,同时提供告警通知能力,用户可以实时掌握MRS集群的各项指标、健康度。 MRS支持将集群中所有部署角色的节点,按管理节点、控制节点和数据节点进行分类,分别计算关键主机监控指标在每类节点上的变化趋势,并在报表中按用户自定义的周期
ALM-14012 Journalnode数据不同步 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性
Journalnode数据不同步(2.x及以前版本) 告警解释 在主NameNode节点上,系统每5分钟检测一次集群中所有JournalNode节点的数据同步性。如果有JournalNode节点的数据不同步,系统产生该告警。 当Journalnode数据同步5分钟后,告警恢复。 告警属性
次慢盘处理情况,当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。 节点:已隔离、隔离失败、取消隔离失败、启动节点失败、已解除隔离。 当处于处理超时的节点或者磁盘状态发生变更时,告警自动恢复。
下原因: 可能原因一:集群节点与客户端节点网络不通。 解决方法: 查看客户端节点“/etc/hosts”文件中是否配置集群节点映射,在客户端节点执行命令: ping sparkui的IP 如果ping不通,检查映射配置与网络设置。 可能原因二:客户端节点防火墙未关闭。 解决方法:
当集群中有超过阈值的节点都被加入黑名单时,黑名单会释放这些节点,其中阈值为故障节点数与集群总节点数的比值。现在每个节点都有其标签表达式,黑名单阈值应根据有效节点标签表达式关联的节点数进行计算,其值为故障节点数与有效节点标签表达式关联的节点数的比值。 假设集群中有100个节点,其中有10个
优化和提升。 系统可靠性 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。 MRS对所有业务组件的管理节点都提供了类似的双机的机制,包括Manager、HDFS
当集群中有超过阈值的节点都被加入黑名单时,黑名单会释放这些节点,其中阈值为故障节点数与集群总节点数的比值。现在每个节点都有其标签表达式,黑名单阈值应根据有效节点标签表达式关联的节点数进行计算,其值为故障节点数与有效节点标签表达式关联的节点数的比值。 假设集群中有100个节点,其中有10个
MRS集群节点类型包括Master节点、Core节点和Task节点。 Master节点:集群中的管理节点。分布式系统的Master进程和Manager以及数据库均部署在该节点;该类型节点不可扩容。该类型节点的处理能力决定了整个集群的管理上限,MRS服务支持将Master节点规格提高,以支持更大集群的管理。
使用IP地址搜索主管理节点并使用VNC登录主管理节点。 在主管理节点,执行以下命令切换用户。 sudo su - omm 在MRS管理控制台,查看指定集群“节点管理”页面的“IP”地址。 记录需使用客户端的Core节点IP地址。 在主管理节点,执行以下命令,将客户端安装包从主管理节点文件拷贝到当前Core节点:
集群组件的审计日志按名称分类,保存在集群各节点“/var/log/Bigdata/audit”,OMS每天凌晨3点自动备份这些审计日志目录。 各节点审计日志目录会按<节点IP>.tar.gz的文件名压缩,所有压缩文件再按<yyyy-MM-dd_HH-mm-ss>.tar.gz的文件名格式,压缩保存在主管理节点“/v
描述了一个完整业务的流程定义文件。一般由一个start节点、一个end节点和多个实现具体业务的action节点组成。 参数解释 “workflow.xml”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name 流程文件名 start 流程开始节点 end 流程结束节点 action 实现具体业务动作的节点(可以是多个)
描述了一个完整业务的流程定义文件。一般由一个start节点、一个end节点和多个实现具体业务的action节点组成。 参数解释 “workflow.xml”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name 流程文件名 start 流程开始节点 end 流程结束节点 action 实现具体业务动作的节点(可以是多个)