检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对HDFS进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对HDFS进行恢复数据操作。 系统管理员可以通过FusionInsight Man
用户可以在MRS上查看、清除告警。一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。在MRS界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条,系统自动将最早的一万条已清除告警转存,转存路径为:
恢复Manager数据(MRS 3.x及之后版本) 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对FusionInsight Manager系统进行重大数据调整等操作后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,需要对Manager进行恢复数据操作。 管理员可以通过FusionInsight
利用Hadoop HDFS作为其文件存储系统。HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持。除了HBase产生的一些日志文件,HBase中的所有数据文件都可以存储在Hadoop HDFS文件系统上。 HDFS和MapReduce的关系
查看备份目录是否软连接到/opt/Bigdata/LocalBackup。 检查备份文件是否软链接到系统盘且系统盘空间是否足够。如果软链接到系统盘且系统盘空间不足,请执行步骤2。如果否,说明不是由于系统盘空间不足导致,请联系技术服务。 将历史备份数据移到数据盘的新目录中。 以root用户登录Master节点。
x及之后版本) 操作场景 为了确保FusionInsight Manager系统日常数据安全,或者系统管理员需要对Manager进行重大操作(如扩容、减容等)前后,需要对Manager数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。
data”,该参数用于确定HDFS文件系统的元数据信息的保存路径。 HDFS需要开启NameNode镜像备份 NameNode的镜像备份参数为“fs.namenode.image.backup.enable”,需要设置该值为“true”,系统即可定期备份NameNode的数据。
该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式,请确保备集群的HBase系统用户具有主集群HDFS的读取权限。因为备集群将更新HBase系统Zookeeper节点和HDFS文件。 主集群HBase故障后,主集群的Zookeeper、文件系统和网络依然可用。 场景介绍
ALM-29100 Kudu服务不可用 告警解释 系统每60秒周期性检测Kudu的服务状态,当检测到所有的Kudu实例都异常时,就会认为Kudu服务不可用,此时产生该告警。 至少一个Kudu实例正常后,系统认为Kudu实例服务恢复,告警清除。 告警属性 告警ID 告警级别 是否自动清除
为了确保DBService日常数据安全,或者系统管理员需要对DBService进行重大操作(如升级或迁移等)时,需要对DBService数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight
ALM-45443 集群存在慢SQL查询 告警解释 系统每隔1分钟检测ClickHouse的慢SQL,当检测到有SQL的执行时间大于等于慢SQL阈值时,系统产生此告警。 当系统检测到SQL执行时间小于慢SQL阈值时,告警自动清除。 告警属性 告警ID 告警级别 是否可自动清除 45443
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名。 对系统的影响 系统性能下降,慢盘会导致系统I/O性能下降,从而影响系统的响应速度和吞吐量。这可能会导致客户的业务
告警解释 系统每隔5分钟检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12041 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名
ALM-12080 omm密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否即将过期,如果当前时间与密码过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12080
操作场景 为了确保Flink集群中的元数据安全,或者系统管理员需要对Flink进行重大操作(如升级或迁移等)时,需要对Flink集群的元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Ma
在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过FusionInsight
恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。 对系统的影响 恢复过程的数据还原阶段,系统会把待恢复的HBase表禁用,此时
在用户意外修改、删除或需要找回数据时,系统管理员对NameNode进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对NameNode进行恢复数据操作。 系统管理员可以通过FusionInsight
网络写包错误率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络写包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络写包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络写信息
执行命令ulimit -n,查看当前系统最大句柄设置数。 若文件句柄使用率超过阈值,直接联系系统管理员,增大系统文件句柄数。 等待5分钟,检查该告警是否恢复。 是,处理完毕。 否,执行7。 检查系统环境是否异常。 联系系统管理员,检查操作系统是否存在异常。 是,恢复操作系统故障,执行8。 否,执行9