检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MonitorServer每隔一个小时,检查当前MonitorServer证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24013 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark.driver
创建HBase表,构造数据,列需要包含key,modify_time,valid。其中每条数据key值全表唯一,modify_time代表修改时间,valid代表是否为有效数据(该样例中'1'为有效,'0'为无效数据)。 示例:进入hbase shell,执行如下命令: create 'hbase_table'
0及以后版本。 告警解释 Flume每隔一个小时,检查当前Flume证书文件是否合法(证书是否存在,证书格式是否正确),如果证书文件非法或已损坏,产生该告警。证书文件恢复合法时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 24010 重要 是 告警参数 参数名称 参数含义 来源
关的配置参数有两个: spark.thriftserver.proxy.create.session.monitor.enabled,控制是否启用该告警功能,集群默认配置为true。 spark.thriftserver.proxy.create.session.timeout.
确定TTL或数据流量增加的场景下,大流量会导致状态数据增加,增加存储压力,从而导致作业稳定性下降,或TTL过期可能出现数据关联不准确。 对于数据关联次数确定的业务,可以使用JTL(Join-To-Live)特性减少状态后端压力,JTL指根据关联次数确定数据是否过期,其可以通过如下两种方式配置:
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-defaults.conf配置文件中,在spark
WEBUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如果有,需要执行以下命令将procedure lock释放: hbase hbck -j
TCP”,“端口”需分别选择“28443”和“20009”。请参见创建安全组。 如果界面提示“添加安全组规则失败”,请检查安全组配额是否不足,请增加配额或删除不再使用的安全组规则。 在EIP管理控制台,申请一个弹性IP地址,并与ECS绑定。 具体请参见为弹性云服务器申请和绑定弹性公网IP。
Spark是内存计算框架,计算过程中内存不够对Spark的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存中RDD的大小来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的GC情况(在客户端的conf/spark-default.conf配置文件中,在spark.driver
据量变化后触发扩缩容,有一定的延后性。 资源计划:若数据量变化存在周期性规律,则可通过资源计划在数据量变化前提前完成集群的扩缩容,避免出现增加或减少资源的延后。 弹性伸缩规则与资源计划均可触发弹性伸缩,两者既可同时配置也可单独配置。资源计划与基于负载的弹性伸缩规则叠加使用可以使得
并从附加信息中找到当前告警值。 在告警页面中查找是否存在磁盘相关的故障告警。 是,执行3。 否,执行4。 联系运维技术人员修复磁盘故障,查看该告警是否恢复。 是,处理完毕。 否,执行5。 可暂时忽略,等待业务高峰过后,查看该告警是否恢复。 是,处理完毕。 否,执行5。 收集故障信息
不成功。 用户的jar包与环境中的jar包冲突导致,可以通过执行wordcount程序是否成功来判断。 如果集群为安全集群,可能是Flink的SSL证书配置错误,或者证书过期。 解决方法 增加队列的资源。 排除用户jar包中的Flink和Hadoop依赖,依赖环境中的jar包。
在使用安全软件测试集群时,发现有EulerOS系统底层存在漏洞。 原因分析 MRS集群内服务部署在EulerOS系统中,因此需要进行漏洞升级。 处理步骤 修复漏洞前请确认是否开启了主机安全服务(Host Security Service,简称HSS),如果已开启,需要先暂时关闭HSS服务对MRS集群的监测,漏洞修复完成后重新开启HSS服务。
WebUI界面看到有长时间处于RIT状态的Region,如何修复? 回答 登录HMaster WebUI,在导航栏选择“Procedure & Locks”,查看是否有处于Waiting状态的process id。如果有,需要执行以下命令将procedure lock释放: hbase hbck -j
置。 创建时间 显示集群创建的时间。 可用区 集群工作区域下的可用区,创建集群时设置。 Kerberos认证 登录Manager管理页面时是否启用Kerberos认证。 企业项目 集群所属的企业项目,仅现有集群列表支持单击企业项目名称进入对应项目的企业项目管理页面。 表2 MRS集群网络信息
-v grep,检查命令是否输出chronyd进程的信息。 是,执行6。 否,执行4。 启动NTP服务。 10分钟后,检查该告警是否恢复。 是,处理完毕。 否,执行6。 检查该节点与主OMS节点chrony服务是否正常同步时间。 查看NTP告警的“附加信息”是否描述“与主OMS节点NTP服务无法同步时间”。
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。 GC的配
Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。 监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。 GC的配
MRS集群网络配置 MRS集群节点配置 MRS集群其他配置 集群信息全部配置完成后,单击“立即购买”。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。购买集群后,不支持修改。