检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
期可用。 MRS服务可以展示详细的补丁安装过程,支持补丁的卸载和失败回滚。 运维支撑 MRS集群的资源完全属于用户,通常情况下,当集群出现问题需要运维人员支撑时,运维人员无法直接访问该集群。为了更好的服务客户,MRS提供两种方式来减少定位问题时的信息传递: 日志共享:用户可以在M
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“LdapServer”。 设置日志收集的主机,可选项,默认所有主机。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。
来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 SlapdServer实例CPU使用率过高,可能导致SlapdSer
基于FIFO调用队列的NameNode请求处理 如果将FIFO队列替换为一种被称作FairCallQueue的新型队列,这种情况就能够得到改善。按照这种方法,FAIR队列会根据调用者的调用规模将传入的RPC调用分配至多个队列中。调度模块会跟踪最新的调用,并为调用量较小的用户分配更高的优先级。
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
基于FIFO调用队列的NameNode请求处理 如果将FIFO队列替换为一种被称作FairCallQueue的新型队列,这种情况就能够得到改善。按照这种方法,FAIR队列会根据调用者的调用规模将传入的RPC调用分配至多个队列中。调度模块会跟踪最新的调用,并为调用量较小的用户分配更高的优先级。
优化HDFS DataNode RPC的服务质量 配置场景 当客户端写入HDFS的速度大于DataNode的硬盘带宽时,硬盘带宽会被占满,导致DataNode失去响应。客户端只能通过取消或恢复通道进行规避,这会导致写入失败及不必要的通道恢复操作。 本章节适用于MRS 3.x及后续版本。
在左侧导航栏中选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在页面右上角单击“运维”,选择“日志共享”,进入“日志共享”界面。 在“起止时间”的输入框单击选择日期和时间。 “起止时间”按照华为云支持人员的建议选取。 结束时间的选择的时间必须大于开始时间选择的时间,否则,无法根据时间筛选日志。
硬盘亚健康检测和故障处理,对业务不造成实际影响。 自动处理文件系统的故障,自动恢复受影响的业务。 自动处理进程和节点的故障,自动恢复受影响的业务。 自动处理网络故障,自动恢复受影响的业务。 MRS提供统一的可视化大数据集群管理界面,让运维人员更加轻松。 MRS提供统一的可视化大数据集群管理界面,包括服务启停
产生告警的集群名称。 服务名 产生告警的服务名称。 应用名 产生告警的应用名称。 角色名 产生告警的角色名称。 任务名 产生告警的作业名称。 对系统的影响 Flink作业RocksDB的Level0层SST文件数持续超过阈值,主要反应的是Flink作业的CheckPoint的性能,对FlinkServer本身没有影响。
Studio集成,提供一站式的大数据协同开发平台,帮助用户轻松完成数据建模、数据集成、脚本开发、作业调度、运维监控等多项任务,可以极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。 集群管理 以Hadoop为基础的大数据生态的各种组件均是以分布式的方式进行部署,其部署、管理和运维复杂度较高。
Server的服务端口。 根据客户的实际防火墙环境,配置整个集群对外的防火墙策略,将该端口关闭,以保证数据安全。 开启LDAP审计日志输出 登录任一LdapServer节点。 执行以下命令,编辑“slapd.conf.consumer”文件,将“loglevel”的值设置为“25
级联授权生成的HDFS/OBS存储源端的权限弱于HDFS Ranger策略的权限,即如果已经对表的HDFS存储源设置了HDFS Ranger权限,则级联权限将不会生效。 不支持对存储源为OBS的表级联授权后直接进行alter操作,需要给对应用户组额外授予OBS表路径的父目录的“Read”和“Write”
参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 网口名 产生告警的网口名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机网络读包
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选“OmsLdapServer”和“OmmServer”,单击“确定”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
Manager功能 Manager是MRS的运维管理系统,为部署在集群内的服务提供统一的集群管理能力。 Manager支持大规模集群的性能监控、告警、用户管理、权限管理、审计、服务管理、健康检查、日志采集等功能。 Manager结构 Manager的整体逻辑架构如图1所示。 图1 Manager逻辑架构
stderr/stdin/syslog Yarn服务上运行的应用所对应的container日志。 yarn-application-check.log Yarn服务上运行的应用检查日志。 yarn-appsummary.log Yarn服务上运行的应用的运行结果日志。 yarn-switch-resourcemanager
删除资源目录 定制租户监控指标 健康检查 启动集群的健康检查 启动服务的健康检查 启动主机的健康检查 启动oms健康检查 启动系统的健康检查 更新健康检查的配置 导出健康检查报告 导出集群健康检查的结果 导出服务健康检查的结果 导出主机健康检查的结果 删除健康检查历史报告 导出健康检查历史报告
本章节介绍如何使用弹性云服务器管理控制台上提供的远程登录(VNC方式)和如何使用密钥或密码方式(SSH方式)登录MRS集群中的节点,远程登录主要用于紧急运维场景,远程登录弹性云服务器进行相关维护操作。其他场景下,建议用户采用SSH方式登录。 如果需要使用SSH方式登录集群节点,需要在集群的安全组规则中手动添
单击“维护”下方的“日志导出”。 “服务”选择服务,“主机”填写服务所部署主机的IP,“开始时间”与“结束时间”选择对应的开始与结束时间。 在“导出类型”选择一个日志保存的位置。只有启用了Kerberos认证的集群支持选择。 “下载到本地”:表示将日志保存到用户当前的本地环境。然后执行8。