检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
群日常运维管理由用户负责,如果在大数据集群运维过程中遇到了相关技术问题,可以联系技术支持团队获得帮助,该技术支持仅协助分析处理MRS云服务相关求助,不包含云服务以外的求助,例如用户基于大数据平台构建的应用系统等。 技术支持范围 支持的服务 MRS云服务管理控制台提供的相关功能: 集群的创建、删除、扩容、缩容
数据保护技术 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,
ALM-12033 慢盘故障 告警解释 MRS 3.3.0及之后版本、MRS 3.1.0.0.10/3.1.5.0.3及之后补丁版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每
ALM-12207 慢盘处理超时 告警解释 当慢盘检测开关打开时,系统默认每隔10分钟检测一次慢盘处理情况,当磁盘或者节点处于如下状态且超过10小时状态未发生变更,则认为磁盘或者节点处理超时,上报该告警。 磁盘:自动隔离中止、已隔离、隔离失败、解除隔离失败。 节点:已隔离、隔离失
HDFS日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hdfs/*/hdfs-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HDFS长时间运行场景下,操作系统会把JVM创建的“/tmp/
已评估好要扩容的ClickHouse节点数据盘磁盘容量大小。 扩容数据盘磁盘容量 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。 单击“节点管理”,在对应的ClickHouse节点组下,单击要扩容的节点名称,进入到“云硬盘”界面。 在对应的数据盘单击“扩容”,进入到扩容磁盘界面。
HDFS服务状态为只读,导致上层服务HBase、Spark等上报服务不可用。 原因分析 当前NodeManager和DataNode共数据盘使用,MRS默认预留15%的数据磁盘空间给非HDFS使用,可通过HDFS参数“dfs.datanode.du.reserved.percen
HBase日志文件过大导致OS盘空间不足 用户问题 OS盘/var/log分区空间不足。 问题现象 “/var/log/Bigdata/hbase/*/hbase-omm-*.out”日志文件过大,造成OS盘/var/log分区空间不足。 原因分析 在HBase长时间运行场景下,操作系统会把JVM创建的“/tmp/
ALM-12033 慢盘故障(2.x及以前版本) 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过150ms。
ALM-50221 BE数据盘的使用率超过阈值 告警解释 系统每30秒周期性检查BE数据盘的使用率,当检查到该值超出阈值(默认值为95%)时产生该告警。 当系统检测到BE数据盘的使用率低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除 50221 紧急 是 告警参数
“/tmp”、“/var”、“/var/log”、“/boot”、“/srv/BigData”。 是,说明该磁盘为系统盘,执行3.a。 否,说明该磁盘为非系统盘,执行2.d。 执行df -h命令,查看系统磁盘分区的使用信息。并通过2.a中获取到的磁盘分区名称,判断该磁盘属于哪一个角色。
文件失败。 原因分析 磁盘硬件故障。 处理步骤 该指导适用于MRS 3.x之前版本分析集群,如需为流式集群或混合集群更换磁盘,请联系华为云技术支持处理。 登录MRS Manager。 选择“主机管理”并单击需要更换磁盘的主机的“主机名称”,在“角色”列表中单击RegionServer,选择“更多
0-LTS请参考数据盘扩容(一键扩容)进行数据盘扩容。 当集群版本为MRS 3.1.2-LTS.3、MRS 3.2.0-LTS.1时,可参考数据盘扩容(手动扩容)进行数据盘扩容。 使用磁盘扩容后所选节点下所有数据盘将扩容至目标容量。 约束条件 仅支持扩大容量,不支持缩小容量。 数据盘最大扩容至32T。
联系华为云支持人员在后台更换磁盘。 在弹性云服务器管理控制台,单击“开机”,将已更换磁盘的节点开机。 初始化Linux数据盘。 具体步骤可参见初始化数据盘对新磁盘进行初始化操作。 执行lsblk命令,查看新增磁盘分区信息。 图2 查看新增磁盘(分区) 使用df -TH获取文件系统类型。
MRS集群容量调整 扩容MRS集群 扩容MRS集群节点数据盘 缩容MRS集群 缩容ClickHouseServer节点 退订MRS包周期集群指定节点 MRS集群Task节点弹性伸缩 父主题: MRS集群运维
MRS 3.x及之后版本集群Master节点规格不能小于64GB。 - 系统盘 节点系统盘的存储类型和存储空间,可根据需要进行调整,更多MRS集群存储说明请参考磁盘角色。 - 数据盘 节点数据盘的存储类型和存储空间,为增大数据存储容量,创建集群时可同时添加磁盘,每个Core或
PMS进程占用内存高 Knox进程占用内存高 安全集群外的客户端访问HBase很慢 作业无法提交如何定位? HBase日志文件过大导致OS盘空间不足 HDFS日志文件过大导致OS盘空间不足 MRS集群节点规格升级异常 Manager页面新建的租户删除失败 MRS集群切换VPC后集群状态异常不可用 MRS管理控制台上提交作业异常处理
安全 责任共担 资产识别与管理 身份认证与访问控制 数据保护技术 审计与日志 服务韧性 监控安全风险 更新管理 安全加固 MRS集群保留JDK说明
内存升高。 NodeAgent偶现会修改nodagent.properties,有可能导致文件丢失。 MRS集群节点内存占满,磁盘出现踢盘,盘分区丢失。 LdapServer数据一致性检查增强。LDAP主备关键数据不一致,未能及时上报告警。 Kafka Topic名称带有短横线分隔符,磁盘隔离后自动恢复失败。
ata/LocalBackup。 检查备份文件是否软链接到系统盘且系统盘空间是否足够。如果软链接到系统盘且系统盘空间不足,请执行步骤2。如果否,说明不是由于系统盘空间不足导致,请联系技术服务。 将历史备份数据移到数据盘的新目录中。 以root用户登录Master节点。 执行su -