检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
useTicketCache=false storeKey=true debug=true; }; 其中keyTab和principal的值请按照实际情况配置,所配置的principal需要有相应的kafka的权限。 配置业务,其中kafka.bootstrap.servers的端口号使用21007,kafka
配置MRS集群告警阈值 配置MRS集群告警屏蔽状态 配置MRS集群对接SNMP网管平台上报告警 配置MRS集群对接Syslog服务器上报告警 配置定时备份告警与审计信息 开启MRS集群维护模式停止上报告警 配置MRS集群告警事件消息通知 父主题: MRS集群运维
地和集群业务平面网络互通时,您可以直接在本地进行调测。 HDFS应用程序运行完成后,可直接通过运行结果查看应用程序运行情况,也可以通过HDFS日志获取应用运行情况。 在本地Windows中调测HDFS程序 (可选)在开发环境中(例如IntelliJ IDEA中),运行此样例代码需
地和集群业务平面网络互通时,您可以直接在本地进行调测。 HDFS应用程序运行完成后,可直接通过运行结果查看应用程序运行情况,也可以通过HDFS日志获取应用运行情况。 在本地Windows环境中调测HDFS程序 在开发环境中(例如IntelliJ IDEA中),分别选中以下两个工程运行程序:
(%):只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。(仅MRS 3.x及之后版本需配置该参数) 当前已使用的文件数的数据采集周期为1个小时,因此超过文件数阈值的告警上报会存在延迟。 存储空间配额
分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表3 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90
地和集群业务平面网络互通时,您可以直接在本地进行调测。 HDFS应用程序运行完成后,可直接通过运行结果查看应用程序运行情况,也可以通过HDFS日志获取应用运行情况。 在本地Windows环境中调测HDFS程序 在开发环境中(例如IntelliJ IDEA中),分别选中以下两个工程运行程序:
及角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory进程的堆内存统计”。单击“确定”,查看堆内存使用情况。 查看JobHistory进程使用的堆内存是否已达到JobHistory进程设定的最大堆内存的90%。
及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制 >JDBCServer进程的堆内存统计”。单击“确定”,查看堆内存使用情况。 查看JDBCServer进程的堆内存是否已达到JDBCServer进程设定的最大堆内存的90%。
地址及角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制 >JDBCServer直接内存”。单击“确定”,查看直接内存使用情况。 查看JDBCServer直接内存是否已达到JDBCServer进程设定的最大直接内存的90%。
角色名。 单击“组件管理 > Spark > 实例 > JobHistory(对应上报告警实例IP地址) > 定制 > JobHistory进程的非堆内存统计”。单击“确定”,查看非堆内存使用情况。 查看JobHistory进程使用的非堆内存是否已达到JobHistory进程设定的最大非堆内存的90%。
地和集群业务平面网络互通时,您可以直接在本地进行调测。 HDFS应用程序运行完成后,可直接通过运行结果查看应用程序运行情况,也可以通过HDFS日志获取应用运行情况。 在本地Windows中调测HDFS程序 (可选)在开发环境中(例如IntelliJ IDEA中),运行此样例代码需
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
一段时间以后会出现Core节点的数据盘被占满的情况。 问题现象 客户连接Spark的JDBCServer服务提交spark-sql任务到yarn集群上,在运行一段时间以后会出现Core节点的数据盘被占满的情况。 后台查看磁盘使用情况,主要是JDBCServer服务的APP临时文件
ClickHouse系统调优 通过FusionInsight Manager查看主机上的CPU、内存、I/O和网络资源使用情况,确认这些资源是否已被充分利用,分以下几种情况: 每个节点资源占用都比较均匀 通过观察资源在每个节点都使用比较均匀,说明系统资源使用比较正常,可以先不关注,可以去分析SQL语句是否有进一步优化的余地。
HDFS网络不稳定场景调优 配置场景 在网络不稳定的情况下,调整如下参数,降低客户端应用运行异常概率。 配置描述 请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。 表1 参数说明 参数 描述 默认值 ha.health-monitor.rpc-timeout
MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight Manager:通过为集群绑定弹性公网IP的方式,访问MRS集群Manager界面
角色名。 单击“组件管理 > Spark > 实例 > JDBCServer(对应上报告警实例IP地址) > 定制 >JDBCServer进程的非堆内存统计”。单击“确定”,查看非堆内存使用情况。 查看JDBCServer进程的非堆内存是否已达到JDBCServer进程设定的最大非堆内存的90%。
当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败并发生如下错误信息。 回答 当Standby NameNode存储元数据(命名空间)时,出现断电的情况,Standby NameNode启动失败,MD5文件会损坏。通过
ALM-45293 Ranger用户同步异常 本章节仅适用于MRS 3.3.1及之后版本。 告警解释 系统每5分钟周期性检测UserSync进程的用户同步情况,当存在同步异常时产生该告警。当用户同步正常时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45293 重要 是 告警参数 类别