检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业开发工作量。 Flink WebUI特点 Flink WebUI主要有以下特点: 企业级可视化运维:运维管理界面化、作业监控、作业开发Flink SQL标准化等。 图1 可视化运维 快速建立集群连接:通过集群连接功能配置访问一个集群,需要客户端配置、用户认证密钥文件。 快速建立
erberos资源状态是否恢复正常。 是,操作结束。 否,执行3。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Hive”。 单击右上角的设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
properties”配置文件。 查看告警列表中,该告警是否已清除。 是,处理完毕。 否,执行4。 收集故障信息。 在MRS Manager界面,单击“系统设置 > 日志导出”。 请联系运维人员,并发送已收集的故障日志信息。 参考信息 无。 父主题: MRS集群告警处理参考
HBase日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hbase/*/hbase-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/
在FusionInsight Manager界面,选择“运维>日志>下载”。 在“服务”中勾选“NodeAgent”、“OmmServer”,单击“确定”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后30分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。
nTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点: 采集指标在某一时间点具有唯一值,没有复杂的结构及关系。 监控的指标具有随着时间不断变化的特点。 具有HBase的高吞吐,良好的伸缩性等特点。
MRS集群数据备份恢复简介 MRS集群数据备份恢复概述 Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。 MRS 3.x及之后版本,备份功能支持将数据备份至本地磁盘(LocalDir)、本端
配置MRS集群对接SNMP网管平台上报告警 如果用户需要在统一的运维网管平台查看集群的告警、监控数据,管理员可以在FusionInsight Manager使用SNMP服务将相关数据上报到网管平台。 前提条件 对接服务器对应的弹性云服务器需要和MRS集群的Master节点在相同的
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Yarn”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
(sudo脚本执行日志) OS:/var/log/message文件(OS系统日志) OS Performance:/var/log/osperf(OS性能统计日志) OS Statistics:/var/log/osinfo/statistics(OS参数配置信息日志) 日志归档规则:
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“OmmServer”,单击“确定”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
HDFS日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hdfs/*/hdfs-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/
HBase运维管理 HBase日志介绍 配置Region Transition恢复线程 启用集群间拷贝功能备份集群数据 配置HBase主备集群数据自动备份 HBase集群容灾高可用 父主题: 使用HBase
Hive运维管理 Hive常用常用配置参数 Hive日志介绍 父主题: 使用Hive
Manager。 选择“运维 > 健康检查”。 默认显示所有已保存的检查报告,以列表形式展示,详情可参考表1。 启动健康检查。 直接启动健康检查: 单击“启动检查”,根据界面提示单击“确定”启动健康检查。 设置定期自动健康检查: 单击“配置”,勾选“启用”,启用后根据运维需要选择检查周期
ClickHouse运维管理 ClickHouse日志介绍 收集ClickHouse系统表转储日志 配置ClickHouse表为只读表模式 集群内ClickHouseServer节点间数据迁移 迁移MRS集群内ClickHouse数据至其他MRS集群 扩容ClickHouse节点磁盘
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Yarn”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Spark运维管理 快速配置参数 常用参数 Spark2x日志介绍 调整Spark日志级别 配置WebUI上查看Container日志 获取运行中Spark应用的Container日志 配置Spark Eventlog日志回滚 配置WebUI上显示的Lost Executor信息的个数
HDFS运维管理 HDFS常用配置参数 HDFS日志介绍 查看HDFS容量状态 更改DataNode的存储目录 调整DataNode磁盘坏卷信息 配置HDFS token的最大存活时间 使用distcp命令跨集群复制HDFS数据 配置NFS服务器存储NameNode元数据 父主题: