-
配置FlinkServer重启策略 - MapReduce服务 MRS
配置FlinkServer重启策略 概述 Flink支持不同的重启策略,以在发生故障时控制作业是否重启以及如何重启。若不指定重启策略,集群会使用默认的重启策略。用户也可以在提交作业时指定一个重启策略,可参考创建FlinkServer作业在作业开发界面配置(MRS 3.1.0及以后版本)。
-
MapReduce Shuffle调优 - MapReduce服务 MRS
Map阶段的调优 判断Map使用的内存大小 判断Map分配的内存是否足够,一个简单的办法是查看运行完成的job的Counters中,对应的task是否发生过多次GC,以及GC时间占总task运行时间之比。通常,GC时间不应超过task运行时间的10%,即GC time elapsed (ms)/CPU
-
提升HBase实时读数据效率 - MapReduce服务 MRS
也要考虑写入的配置是否合理。 读数据客户端调优 Scan数据时需要设置caching(一次从服务端读取的记录条数,默认是1),如果使用默认值读性能会降到极低。 当不需要读一条数据所有的列时,需要指定读取的列,以减少网络IO。 只读取RowKey时,可以为Scan添加一个只读取R
-
有210000个map和10000个reduce的HBase BulkLoad任务运行失败 - MapReduce服务 MRS
ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。
-
有210000个map和10000个reduce的HBase BulkLoad任务运行失败 - MapReduce服务 MRS
ZooKeeper IO瓶颈观测手段: 通过Manager的监控页面查看单个节点上ZooKeeper请求监控,判断是否严重超出规格限制。 通过观测ZooKeeper的日志以及HBase的日志,查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。
-
执行健康检查 - MapReduce服务 MRS
数、配置以及监控没有异常、能够长时间稳定运行。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面
-
执行健康检查 - MapReduce服务 MRS
数、配置以及监控没有异常、能够长时间稳定运行。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面
-
ALM-12083 ommdba密码即将过期 - MapReduce服务 MRS
系统每天零点开始,每8小时检测当前系统中ommdba密码是否即将过期,如果当前时间与ommdba密码过期时间剩余不足15天,则发送告警。 当系统中ommdba用户密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12083 次要 是 告警参数 参数名称
-
ALM-12101 AZ不健康 - MapReduce服务 MRS
检查AZ容灾列表中健康状态为“非健康”的AZ所在行的操作列中的“容灾演练”是否为灰色。 是,执行4。 否,执行3。 单击目标AZ行“操作”列中的“恢复”,待恢复后。等待2分钟,刷新页面查看该AZ健康状态。查看是否健康恢复。 是,处理完毕。 否,执行4。 收集故障信息。 以root用户
-
ALM-12079 omm用户即将过期 - MapReduce服务 MRS
告警解释 系统每天零点开始,每8小时检测当前系统中omm用户是否即将过期,如果当前时间与用户过期时间剩余不足15天,则发送告警。 当系统中omm用户过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12079 次要 是 告警参数 参数名称 参数含义
-
ALM-12080 omm密码即将过期 - MapReduce服务 MRS
告警解释 系统每天零点开始,每8小时检测当前系统中omm密码是否即将过期,如果当前时间与密码过期时间剩余不足15天,则发送告警。 当系统中omm密码过期的期限重置,当前状态为正常,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12080 次要 是 告警参数 参数名称 参数含义
-
ALM-12087 系统处于升级观察期 - MapReduce服务 MRS
系统处于升级观察期 告警解释 系统定时在每天零点查看当前系统是否处于升级观察期,同时检查进入升级观察时间是否超过了为客户预留的升级观察期时间(默认为10天)。当系统处于升级观察期,并且进入升级观察期时间超过了为客户预留的升级观察期时间(默认时间为10天)时,系统触发此告警。如果用户进行了回滚
-
在Linux中调测Hive HCatalog应用 - MapReduce服务 MRS
导入上述环境变量前需确认当前引入的jar包是否存在,具体的版本号可从客户端Hive的lib目录下获取。 运行前准备。 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。当前用户为准备Hive应用开发用户时增加的开发用户。 人机用户:kinit
-
配置弹性伸缩规则 - MapReduce服务 MRS
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目编号。获取方法,请参见获取项目ID。 cluster_id 是 String 集群ID。获取方法,请参见获取集群ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 node_group
-
数据表报错Too many parts解决方法 - MapReduce服务 MRS
登录ClickHouse客户端,需要排查是否存在异常的Merge。 select database, table, elapsed, progress, merge_type from system.merges; 业务上建议insert频率不要太快,不要小批量数据的插入,适当增大每次插入的时间间隔。 数据
-
ClickHouse数据表分区过多调优 - MapReduce服务 MRS
登录ClickHouse客户端,需要排查是否存在异常的Merge。 select database, table, elapsed, progress, merge_type from system.merges; 业务上建议insert频率不要太快,不要小批量数据的插入,适当增大每次插入的时间间隔。 数据
-
提升HDFS写数据性能 - MapReduce服务 MRS
配置”,选择“全部配置”。在搜索框中输入参数名称。 表1 HDFS写性能优化配置 参数 描述 默认值 dfs.datanode.drop.cache.behind.reads 表示是否让DataNode将在缓冲区中的数据传递给客户端后自动清除缓冲区中的所有数据。 true:表示丢弃缓存的数据(需要在DataNode中配置)。
-
ALM-45653 Flink HA证书文件失效 - MapReduce服务 MRS
Flink首次或者每天01:00:00开始健康检查时,检查当前系统中的HA证书文件是否失效(证书是否存在,证书格式是否正确),如果证书文件失效,产生该告警。证书文件恢复,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45653 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
-
Kafka高可靠使用说明 - MapReduce服务 MRS
true 是否使用Leader自动均衡功能。 如果设为true,Controller会周期性的为所有节点的每个分区均衡Leader,将Leader分配给更优先的副本。 acks 1 需要Leader确认消息是否已经接收并认为已经处理完成。该参数会影响消息的可靠性和性能。 acks=0
-
ALM-24013 Flume MonitorServer证书文件非法或已损坏 - MapReduce服务 MRS
MonitorServer每隔一个小时,检查当前MonitorServer证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24013 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。