检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ALM-16047 HiveServer已从Zookeeper注销 告警解释 系统每60秒周期性检测Hive服务,若Hive在Zookeeper上的注册信息丢失,或者Hive无法连接上Zookeeper,将会发出告警。 告警属性 告警ID 告警级别 是否自动清除 16047 重要
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Mapreduce JobHistoryServer堆内存使用率过高,会影响Mapreduce 服务日志归档
产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。 可能原因
Manager首页,单击“系统设置 > 日志导出 ”。 在“服务”中勾选Presto节点信息。 单击右上角的 设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“确定”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
ALM-45638 Flink作业失败重启次数超阈值 本章节仅适用于MRS 3.2.0及以后版本。 告警解释 系统以用户配置的告警周期检查Flink作业重启次数,如果重启次数超过用户配置的阈值,则发送告警。当作业重启成功,则告警恢复。 告警属性 告警ID 告警级别 是否自动清除 45638
Flink HA证书文件失效 本章节适用于MRS 3.3.0及以后版本。 告警解释 Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID 告警级别
持默认的系统目录,例如“/hbase”或“/user/hbase/backup”。 “最大备份数”:填写备份目录中可保留的备份文件集数量。 单击“确定”保存。 在备份任务列表中已创建任务的“操作”列,选择“更多 > 即时备份”,开始执行备份任务。 备份任务执行完成后,系统自动在备
Flume读取数据异常(2.x及以前版本) 告警解释 告警模块对Flume Source的状态进行监控,当Source读取不到数据的时长超过阈值时,系统发送告警。 用户可通过配置修改阈值。 当Source读取到数据,且告警处理完成时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 24004
配置Spark通过Guardian访问OBS 对接OBS MRS集群支持Spark服务在创建表时指定Location为OBS文件系统路径,也支持基于Hive Metastore方式对接OBS。 建表时指定Location为OBS路径: 以客户端安装用户登录安装客户端的节点,并进入spark-sql客户端:
为了确保ClickHouse日常用户的业务数据安全,或者集群用户需要对ClickHouse进行重大操作(如升级或迁移等),需要对ClickHouse数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 集群用户可以通过FusionInsight Manager创建
Manager创建恢复ClickHouse任务。只支持创建任务手动恢复数据。 该功能仅MRS 3.1.0及之后版本支持。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复ClickHouse元数据,建议手动备份最新ClickHouse元数据后,再执行恢复Cl
00个用户组(包括系统内置用户组)。 MRS 2.x及之前版本,Manager最大支持100个用户组(包括系统内置用户组)。 前提条件 管理员已明确业务需求,并已创建业务场景需要的角色。 已登录Manager。 添加用户组 MRS 3.x及之后版本: 选择“系统 > 权限 > 用户组”。
interval分钟前创建的检查点。例如,系统每10分钟检测是否存在老化文件,如果发现有老化文件,则删除。对于未老化文件,则会存储在checkpoint列表中,等待下一次检查。 如果此参数的值设置为0,则表示系统不会检查老化文件,所有老化文件会被保存在系统中。 取值范围:0~fs.trash
是否自动清除 12099 次要 否 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 出现该告警说明某些进程发生了crash。如果是关键进程发生crash,可能会导致集群短暂的不可用。
不同条件的优先级由高到低为:拒绝例外条件 > 拒绝条件 > 允许例外条件 > 允许条件。 系统判断流程可参考下图所示,如果组件资源请求未匹配到Ranger中的权限策略,系统默认将拒绝访问。但是对于HDFS和Yarn,系统会将决策下放给组件自身的访问控制层继续进行判断。 例如要将一个文件夹File
绑定。 图3 绑定委托 创建OBS文件系统用于存放数据 大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统),使用普通对象桶会对集群性能产生较大影响。 登录OBS控制台。 选择“并行文件系统 > 创建并行文件系统”。 填写文件系统名称,例如“mrs-word001”。
/;user.principal=spark/hadoop.<系统域名>@<系统域名>;saslQop=auth-conf;auth=KERBEROS;principal=spark/hadoop.<系统域名>@<系统域名>;" 其中“<server_IP>:<server_Po
ver 运行Spark任务发现大量shuffle结果丢失 JDBCServer长时间运行导致磁盘空间不足 spark-shell执行SQL跨文件系统load数据到Hive表失败 Spark任务提交失败 Spark任务运行失败 JDBCServer连接失败 查看Spark任务日志失败
准备Manager应用开发和运行环境 在进行开发时,要准备的开发和运行环境如表1所示。 表1 开发和运行环境 准备项 说明 操作系统 Windows系统,支持Windows 7以上版本。 本地开发环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置,版本要求如下:
对值。 储存资源 为当前租户选择存储资源。 选择“HDFS”时系统将自动在“/tenant”目录中以租户名称创建文件夹。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。 不选择“HDFS”时,系统不会在HDFS中创建存储目录。 文件/目录数上限 HDFS中创