检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在告警列表中,查看是否有“ALM-12007 进程故障”告警产生。 是,执行1.e。 否,执行2.a。 在“ALM-12007 进程故障”的“告警详情”区域,查看定位信息的“ServiceName”是否为“ZooKeeper”。 是,执行1.f。 否,执行2.a。 参考ALM-12007 进程故障(2.x及以前版本)的处理步骤处理该故障。
beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题
RPC处理平均时间”,单击“default”规则所在行的“操作”列的“修改”,将“紧急”或“重要”告警级别对应的“阈值”修改为告警出现后1天内监控值的峰值的150%,并单击“确定”保存。 等待5分钟,查看该告警是否自动清除。 是,处理完毕。 否,执行6。 查看Guardian TokenServer内存设置是否过小。
菜单,在定位信息中确认告警上报的Znode。 选择“集群 > 待操作集群的名称 > 服务 > ZooKeeper”,单击“资源”,在精细化监控“资源使用(按二级Znode)”中,单击“按容量”查看顶级Znode目录是否被写入较多数据。 是,记录被写入较多数据的目录,执行3。 否,执行5。
Workflow”),可以直接单击该名称进行修改,例如“Java-Workflow”。 保存完成后,单击,提交该作业。 作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。 父主题: 使用Hue提交Oozie作业
重启集群所有节点NodeAgent。 $CONTROLLER_HOME/inst/restartAllNoes.sh 登录集群后台节点查看进程: ps -ef |grep NodeAgent 如果包含参数“-Dfastjson.parser.safeMode=true”,说明漏洞问题已经规避,如下图所示:
krb5-workstation-1.10.3-33.el6.x86_64 在Kerberos服务节点上使用kill -9命令结束Kerbeors的进程,等待其重启即可。 父主题: 登录集群Manager常见异常问题
设置可分配给容器的物理内存数量。单位:MB,取值范围大于0。 建议配置成节点物理内存总量的75%~90%。如果该节点有其他业务的常驻进程,请降低此参数值给该进程预留足够运行资源。 16384 CPU虚拟核数 建议将此配置设定在逻辑核数的1.5~2倍之间。如果上层计算应用对CPU的计算能
”,单击图表区域右上角的下拉菜单,选择“定制 > 服务 > 处在RIT状态的region数”,单击“确定”,查看该图表中“处在RIT状态达到阈值时长的region数”监控项是否在连续3个检测周期内检测到值。(默认阈值为60秒)。 是,执行3。 否,执行7。 图1 处在RIT状态的region数 选择“集群 >
用于数据分析结果的呈现,并与数据治理中心DataArts Studio集成,提供一站式的大数据协同开发平台,帮助用户轻松完成数据建模、数据集成、脚本开发、作业调度、运维监控等多项任务,可以极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以
RPC队列平均时间”,单击“default”规则所在行的“操作”列的“修改”,修改“紧急”或“重要”告警级别对应的“阈值”为告警出现后1天内监控值的峰值的150%,单击“确定”保存。 等待5分钟,查看该告警是否自动清除。 是,处理完毕。 否,执行6。 查看Guardian TokenServer内存设置是否过小。
checkpoint的语义 execution.checkpointing.mode: EXACTLY_ONCE 通过查看监控信息定位Back Pressure点 Flink提供了很多的监控指标,根据这些指标可以分析任务过程中的性能状况及瓶颈。 【示例】配置采样的样本数和时间间隔: # 有效的反
Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 FusionInsight Manager界面操作:登录FusionInsight Manager,选择“集群 > 服务 > Kafka”,查看当前Kafka状态,发现状态为良好,且监控指标内容显示正确。 通过Kafka
例如“Subworkflow-Workflow”。 保存完成后,单击,提交该作业。 作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。 父主题: 使用Hue提交Oozie作业
例如“Subworkflow-Workflow”。 保存完成后,单击,提交该作业。 作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。 父主题: 使用Hue提交Oozie作业
开发和运行环境的基本配置。版本要求如下: 服务端和客户端仅支持自带的OpenJDK,版本为1.8.0_272,不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端:Oracle JDK:支持1.8版本;IBM JDK:支持1.8.5.11版本。 TaiShan客户端:OpenJDK:支持1
Manager首页,选择“运维 > 告警 > 告警”页面,查看是否有“ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值”告警。 是,执行11。 否,执行13。 按照ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值的处理方法,依次对这些服务异常的NameService
端口被占用导致RegionServer启动失败 节点剩余内存不足导致HBase启动失败 HDFS性能差导致HBase服务不可用告警 参数不合理导致HBase启动失败 残留进程导致Regionsever启动失败 HDFS上设置配额导致HBase启动失败 HBase version文件损坏导致启动失败 无业务情况下,RegionServer占用CPU高
yarn.nodemanager.container-localizer.java.opts 附加的jvm参数是提供给本地化container进程使用的。 -Xmx256m -Djava.security.krb5.conf=${KRB5_CONFIG} 默认值-Xmx256m -Djava
spark Driver Memory Driver内存大小,单位默认为GB。 1GB Executor Memory 每个Executor进程的内存 ,和JVM内存串拥有相同的格式,单位默认为GB。 1GB Executor Cores 每个Executor所占用的CPU核的数目。