检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
告警解释 系统每隔5分钟检查一次系统中关键目录或者文件权限、用户、用户组是否正常,如果不正常,则上报故障告警。 当检查到权限等均正常,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12041 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名
ALM-12080 omm密码即将过期 告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否即将过期,如果当前时间与密码过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12080
操作场景 为了确保Flink集群中的元数据安全,或者系统管理员需要对Flink进行重大操作(如升级或迁移等)时,需要对Flink集群的元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Ma
在用户意外修改、删除或需要找回数据时,系统管理员需要对Flink进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致Flink组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对Flink元数据进行恢复数据操作。 系统管理员可以通过FusionInsight
恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的HBase数据。 对系统的影响 恢复过程的数据还原阶段,系统会把待恢复的HBase表禁用,此时
在用户意外修改、删除或需要找回数据时,系统管理员对NameNode进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对NameNode进行恢复数据操作。 系统管理员可以通过FusionInsight
该DataNode的数据存放情况。 NameNode 用于管理文件系统的命名空间、目录结构、元数据信息以及提供备份机制等。 Active NameNode:主NameNode,管理文件系统的命名空间、维护文件系统的目录结构树以及元数据信息;记录写入的每个“数据块”与其归属文件的对应关系。
业务作业类型Hive SQL、Spark SQL、Spark Python等,是否需要使用MRS的第三方包,参考MRS应用开发样例。 调度系统,需要考虑调度系统对接MRS集群。 迁移后,业务割接允许中断时长,识别平台业务优先级。 识别在迁移过程中不能中断的业务、可短时中断的业务、整体业务迁移可接受的迁移时长,梳理业务迁移顺序。
DNS解析时长超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值20000ms)进行比较,当检测到DNS解析时长连续多次(默认值为2)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络状态
该工具应该由启动HBase进程的系统用户运行。 如果处于安全模式,请确保备用集群的HBase系统用户具有主集群HDFS的读取权限。因为它将更新HBase系统ZooKeeper节点和HDFS文件。 主集群HBase故障后,主集群的ZooKeeper,文件系统和网络依然可用。 场景介绍
操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对Doris进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对Doris进行恢复数据操作。 系统管理员可以通过FusionInsight Ma
网络读包错误率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息
ALM-12054 证书文件失效(2.x及以前版本) 告警解释 系统在每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,该告警恢复。 告警属性 告警ID 告警级别
ClickHouse访问OBS失败 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统配置冷热分离功能后,每隔1分钟检测一次当前访问OBS的状态,当连续3次检测到访问OBS失败时,系统产生告警。 当检测到系统访问OBS成功时,告警自动消除。 告警属性 告警ID 告警级别 是否可自动清除
在用户意外修改、删除或需要找回数据时,系统管理员对CDL进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对CDL进行恢复数据操作。 CDL的元数据存储在DBService与Kafka服务中,系统管理员可以通过FusionInsight
操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对IoTDB进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对IoTDB进行恢复数据操作。 系统管理员可以通过FusionInsight Ma
据防误删策略,在基于OBS的Hadoop大数据系统中,客户可以兼容使用Hadoop FS原生的垃圾回收功能。 组件用户删除的文件数据并不会直接被删除,而是会保存到OBS文件系统内的用户回收站目录中,本章节用于指导用户设置OBS文件系统内回收站目录的生命周期策略,以定时自动清理相关数据。
Hadoop shell命令 Hadoop基本shell命令,包括提交MapReduce作业,kill MapReduce作业,进行HDFS文件系统各项操作等。 MapReduce输入输出(InputFormat,OutputFormat) MapReduce框架根据用户指定的Inpu
HDFS支持集群掉电自动恢复 操作场景 HDFS数据写入磁盘时会先写入操作系统缓存,当操作系统缓存写入完成后则认为数据写入完成,缓存数据写入磁盘工作交由操作系统完成。如果此时集群断电,则缓存的数据就会丢失,造成HDFS丢块现象。在HDFS启动时如果有丢块,那么HDFS会进入安全模式,无法自动恢复。
OUTFILE命令,将Doris查询结果集使用指定的文件格式导出到指定的存储系统中。 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。 如果在导出过程中出现错误,可能会有导出文件残留在远端存储系统上,Doris不会清理这些文件,需要手动清理。 导