检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
提交作业时系统提示当前用户在Manager不存在如何处理? 问: 安全集群在提交作业时,未进行IAM用户同步,会出现“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”的错误提示。 答: 在提交作业之前,用户需要先在集群详情
是否有执行成功的记录。 是,执行3。 否,执行4。 使用最近一次备份的元数据,对HBase服务的元数据进行恢复操作。 收集故障信息 在主备集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的有问题的HBase服务。
HBase关键目录数据存在坏块 告警解释 系统每5分钟周期性检测HBase服务的关键目录是否存在坏块,当检测到存在坏块时产生该告警。检查内容包括“hbase.version”文件、hbase:meta和master:store表目录。 当系统检测到HBase服务的关键目录都不存在坏块时,告警清除。
Scheduler只存储正在运行的applicationID,所以当查看的是已结束或不存在的applicationID,服务器会响应给浏览器“404”的状态码。但是由于chrome浏览器访问该REST接口时,优先以“application/xml”的格式响应,该行为会导致服务器端处理出现异常,所以返回的页面会提示“Error
19026 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的WAL文件,如果位于该文件上的数据未落盘,会导致这部分数据丢失,业务查询数据时出现部分数据不一致。
是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 HBase存在损坏的StoreFile文件,可能会导致位于该文件上的数据丢失,业务查询数据可能出现不一致。 可能原因
Scheduler只存储正在运行的applicationID,所以当查看的是已结束或不存在的applicationID,服务器会响应给浏览器“404”的状态码。但是由于chrome浏览器访问该REST接口时,优先以“application/xml”的格式响应,该行为会导致服务器端处理出现异常,所以返回的页面会提示“Error
ALM-12015 设备分区文件系统只读(2.x及以前版本) 告警解释 系统周期性进行扫描,如果检测到挂载服务目录的设备分区变为只读模式(如设备有坏扇区、文件系统存在故障等原因),则触发此告警。 系统如果检测到挂载服务目录的设备分区的只读模式消失(比如文件系统修复为读写模式、设备拔出、设备被重新格式化等原因),则告警恢复。
如何读取“__consumer_offsets”内部topic的内容 用户问题 Kafka如何将consumer消费的offset保存在内部topic“ __consumer_offsets”中? 处理步骤 以客户端安装用户,登录安装Kafka客户端的节点。 切换到Kafka客户端安装目录,例如“/opt/client”。
NameNode节点存在ALM-12027主机PID使用率超过阈值告警 问题背景与现象 3.1.2及之前的3.x版本集群,NameNode节点存在ALM-12027主机PID使用率超过阈值告警,节点Java进程可能出现“unable to create new native thread”报错。
定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 NameService名 产生告警的NameService。 附加信息 触发条件 系统当前指标取值满足自定义的告警设置条件、集群外的DataNode节点IP及端口。 对系统的影响 当有脱离集群管控的DataNode时,可能造成数据丢失。
HDFS文件系统目录简介 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现
BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势 告警解释 系统每30秒周期性检查BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势,当检查到该值不等于1(1表示没有增长趋势,0表示有增长趋势)时产生该告警。 当系统检测到BE上执行的各类任务中不存在某种类型的任务失败次数有增长趋势时,告警清除。
Ranger界面添加或者修改HBase策略时,无法使用通配符搜索已存在的HBase表 问题 添加HBase的Ranger访问权限策略时,在策略中使用通配符搜索已存在的HBase表时,搜索不到已存在的表,并且在/var/log/Bigdata/ranger/rangeradmin/
参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 ClickHouse组件中存在单副本,当出现硬件故障时,无法恢复数据。 可能原因 ClickHouse节点其组件配置目录下的metrika.xml配置信息中存在单副本配置。
参数名称 参数含义 来源 产生告警的集群名称。 角色名 产生告警的角色名称。 主题名 产生告警的Topic名称列表。 对系统的影响 单副本的Topic存在单点故障风险,当副本所在节点异常时,会直接导致Partition没有leader,影响该Topic上的业务。 可能原因 Topic副本数配置不合理。
配置HBase权限策略时无法使用通配符搜索已存在的HBase表 问题 添加HBase的Ranger访问权限策略时,在策略中使用通配符搜索已存在的HBase表时,搜索不到已存在的表,并且在/var/log/Bigdata/ranger/rangeradmin/ranger-admin-*log中报以下错误
Job对应的运行日志保存在哪里? 问: Spark Job对应的运行日志保存在哪里? 答: Spark Job没有完成的任务日志保存在Core节点的“/srv/BigData/hadoop/data1/nm/containerlogs/”目录内。 Spark Job完成的任务日志保
参数含义 定位信息 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名称。 附加信息 db 存在较大Tablet的数据库名称。 table 存在较大Tablet的表名称。 对系统的影响 Tablet较大时可能导致D
用指定的文件格式导出到指定的存储系统中。 导出命令不会检查文件及文件路径是否存在、是否会自动创建路径、或是否会覆盖已存在文件,由远端存储系统的语义决定。 如果在导出过程中出现错误,可能会有导出文件残留在远端存储系统上,Doris不会清理这些文件,需要手动清理。 导出命令的超时时间同查询的超时时间,可以通过SET