华为云用户手册

  • 查看主机监控图表信息 通过 MRS 管理控制台查看: 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“节点管理”并展开节点组信息,查看所有主机状态。 主机列表中包括节点名称/资源ID、IP、状态、规格、云硬盘、可用区等信息。 单击列表中指定的节点名称,查看单个节点状态及指标。 单击“监控”页签,可以查看当前节点的监控图表信息。 通过Manager查看: MRS 3.x及之后版本 登录 FusionInsight Manager。 单击“主机”,查看主机列表信息。 在主机列表单击指定的主机名称,查看主机概览信息。 在主机详情页面,主要包含基本信息区、磁盘状态区、实例列表区和监控图表等。 单击“图表”页签,可直接查看该主机的全量监控图表信息。 图表页面可直接查看该主机的全量监控图表信息 MRS 2.x及之前版本 登录MRS Manager。 单击“主机管理”,看所有主机状态。 单击列表中指定的主机名称,查看单个主机状态及指标。 定制、导出监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • 前提条件 已安装包含Spark服务的集群客户端,安装目录如“/opt/hadoopclient”。 Spark服务运行状态正常。 在租户资源中添加租户,例如创建租户sparkstatic1,具体请参见添加MRS租户章节。 对于开启了Kerberos认证的集群,需要创建一个业务用户,例如创建用户“sparkuser”,该用户属于hive、hadoop、supergroup组,主组为hive,角色绑定sparkstatic1。
  • 配置用户私有属性 以业务用户登录FusionInsight Manager。 设置Independent属性后,管理员不能初始化私有用户(业务用户设置了Independent属性后,即为私有用户)的密码;如果忘记此用户密码,密码将无法找回。 admin用户无法设置Independent属性。 移动鼠标到界面右上角的用户名。 在弹出的菜单栏中单击“设置Independent”或“取消Independent”。 私有属性功能开关已开启,业务用户当前已设置私有属性时,菜单栏显示“取消Independent”。 私有属性功能开关已开启,业务用户当前已取消私有属性时,菜单栏显示“设置Independent”。 私有属性功能开关已关闭,业务用户当前已设置私有属性时,菜单栏显示“取消Independent”。 私有属性功能开关已关闭,业务用户当前已取消私有属性时,菜单栏不显示。 根据界面提示,输入密码,单击“确定”完成身份验证。 身份验证通过后,在确认对话框中单击“确定”。
  • 修改MRS集群NTP服务器 登录FusionInsight Manager,查看是否存在未清除的告警? 是,请修复告警。告警处理完毕后,执行2。 否,执行2。 以omm用户分别登录主备管理节点。 在主管理节点执行以下命令查看管理平面网关。 cat ${BIGDATA_HOME}/om-server/ OMS /workspace/conf/oms-config.ini | grep om_gateway 在主备管理节点分别执行ping 管理平面网关,检查节点是否与管理平面网关连通? 是,执行5。 否,请联系网络管理员修复网络故障,处理完毕后,执行5。 在主管理节点执行以下命令,获取当前环境NTP服务器 域名 。 本章节后续步骤中将以“ntp.myhuaweicloud.com”为例 cat /opt/Bigdata_func/cloudinit/cloudinit_params | grep ntpserver 在主管理节点执行以下命令,检查集群时间与新的NTP服务器时间偏差。单位为秒。 例如,检查与NTP服务器“ntp.myhuaweicloud.com”的时间差,执行ntpdate -d ntp.myhuaweicloud.com命令,界面显示: 6 Dec 15:16:10 ntpdate[2861453]: step time server 10.79.3.251 offset +2.118107 sec 其中+2.118107 sec表示时间偏差。正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢。 ntp的版本号可以使用ntpq -v或者ntpq --version命令查询,具体显示信息以实际环境为准。 ntpq -v界面显示: 10.1.1.112: ~# ntpq -v ntpq - standard NTP query program - Ver. 4.2.4p8 ntpq --version界面显示: 10.1.1.112: ~# ntpq --version ntpq 4.2.8p10@1.3728-o Mon Jun 6 08:01:59 UTC 2016 (1) 检查时间偏差的绝对值是否超过“150”。 是,执行8。 否,时间偏差的绝对值不超过“150”,以omm用户执行10。 确认是否可以停止集群。 是,停止上层业务并停止集群,然后执行9。 否,任务结束。 确认NTP服务器时间是否比集群当前时间慢? 是,NTP服务器时间慢,停止集群界面显示“操作成功”后需等待,间隔大约为6得到的时间偏差,再以omm用户执行11。 否,NTP服务器时间快,停止集群界面显示“操作成功”后直接以omm用户执行11。 在主管理节点执行以下命令,更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com NTP服务器IP地址不可以设置为集群内节点IP地址,否则可能会导致节点与主备oms节点业务网络断连。 在主管理节点执行以下命令,从NTP服务器“ntp.myhuaweicloud.com”立即强制同步时间并更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time 如果停止了集群,在更换NTP服务器后需要重新启动集群。 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。
  • 使用约束 防御规则默认动态生效时间为5秒,修改队列后Hive防御规则重新加载时间为10分钟。 拦截和熔断规则会中断SQL任务,请根据实际业务配置合理的值。 动态规则dynamic_0001(SQL语句扫描的文件数超过阈值),当Spark与Tez引擎达到提示阈值时拦截日志会在Yarn任务日志中打印,不支持在Beeline客户端输出。 熔断规则存在统计误差,例如规则running_0004,扫描数据量阈值配置10GB,但是因为判断周期和任务并发影响,可能在15GB甚至更高才进行熔断。
  • MRS节点规格 MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。 弹性云服务器由多个租户共享物理资源,而裸金属服务器的资源归用户独享。对于关键类应用或性能要求较高的业务(如大数据集群、企业中间件系统),并且要求安全可靠的运行环境,使用裸金属服务器更合适。当使用BMS类型的规格时,不支持升级Master节点规格。 仅当集群的“计费模式”为“包年/包月”时,MRS支持使用BMS类型的规格。 MRS支持的弹性云服务器(E CS )和裸金属服务器(BMS)混合部署,部署方式如下: Master、Core和Task节点均使用ECS部署。 Master、Core使用BMS部署,Task使用ECS部署。 Master、Core节点任意使用ECS和BMS混合部署,Task节点使用ECS部署。 弹性云服务器由多个租户共享物理资源,而裸金属服务器的资源归用户独享。对于关键类应用或性能要求较高的业务(如大数据集群、企业中间件系统),并且要求安全可靠的运行环境,使用裸金属服务器更合适。 当使用BMS类型的规格时,不支持升级Master节点规格。 节点的实例规格配置越高,数据处理分析能力越强,集群所需费用也越高。 不同可用区内的实例规格可能有差异,如果当前可用区下的实例规格不满足需求,可尝试切换其他可用区。 当Core节点规格选择为HDD磁盘时,MRS无需为数据磁盘付费,但ECS需要为此付费。 当Core节点规格选择非HDD磁盘时,Master节点和Core节点的磁盘类型取决于数据磁盘。 当节点的实例规格选项后标示“已售罄”时,将无法购买此规格的节点,请选择其他规格节点进行购买。 Master节点中的4核8GB规格不在SLA售后范围内,仅适用于测试环境,不建议用于生产环境。 MRS 3.x及之后版本集群Master节点规格不能小于64GB。
  • 磁盘角色 表1 MRS集群节点磁盘类型 磁盘角色 描述 系统盘 节点系统盘的存储类型和存储空间。 存储类型: SAS:高IO SSD:超高IO GPSSD:通用型SSD 数据盘 节点数据磁盘存储空间。为增大数据存储容量,创建集群时可同时添加磁盘,每个Core或者Task节点最多支持添加10块磁盘,有如下应用场景: 数据存储和计算分离,数据存储在OBS中,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。 数据存储和计算不分离,数据存储在HDFS中,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。 目前的存储类型: SAS:高IO SSD:超高IO GPSSD:通用型SSD 说明: MRS集群内节点个数越多,对管理节点(即Master节点)的硬盘容量要求越高。为了保证集群能够健康地运行,当创建的节点个数达到300时,建议将Master的硬盘容量配置成600 GB以上;当创建的节点个数达到500时,建议将Master的硬盘容量配置成1TB以上。
  • 使用约束 防御规则默认动态生效时间为5分钟。 拦截和熔断规则会中断SQL查询,请根据实际业务配置合理的值。 熔断规则由系统Session级别参数控制,配置熔断规则需要业务用户具有set session的权限。 静态规则static_0003中查询总的Join个数不包含Semi Join和Anti Join。 动态规则dynamic_0001和dynamic_0002配置提示规则时,只在日志记录提示信息,不在客户端显示。 熔断规则Running_0001中,因客户端和服务端是异步请求,当服务端已经阻断请求后客户端可能显示Query is gone,此时可通过查看日志确认请求已被阻断。
  • 前提条件 已安装包含ClickHouse服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 ClickHouse逻辑集群运行状态正常。 对于开启了Kerberos认证的集群,需要创建具有ClickHouse表操作权限的业务用户,例如创建人机用户“clickhouseuser”。 已创建关联了ClickHouse服务的租户,并与ClickHouse业务用户关联,具体请参见添加MRS租户章节。
  • 功能介绍 MRS在主力SQL引擎(Hive、Spark、HetuEngine、ClickHouse)中增加SQL防御能力,基于用户可理解的SQL防御策略,实现对典型大SQL、低质量SQL的主动防御,包括事前拦截和事中熔断,并不强制改变用户的SQL提交方式、SQL语法,对业务零改动且易落地。 支持管理员界面化配置SQL防御策略,同时可支持防御规则的查询和修改。 每个SQL引擎在进行SQL业务响应、执行过程中,基于SQL防御策略进行主动防御行为。 管理员可将SQL防御行为在“提示”、“拦截”、“熔断”选项之间进行灵活切换,系统会将发生的SQL防御事件实时写入到防御审计日志中。运维人员可进行 日志分析 ,评估现网SQL质量,提前感知潜在SQL风险,并做出有效预防措施。 SQL防御规则包含以下类型: 静态拦截规则:基于纯粹的SQL语法规则进行拦截或提示。 动态拦截规则:基于与数据表的统计信息、元数据信息等内容有关的规则进行拦截或提示。 运行熔断规则:基于SQL语句运行时的系统动态信息(如CPU、内存、IO等)的规则进行阻断。 对于静态拦截规则、动态拦截规则,系统在SQL请求满足条件时,可对该请求进行中止或者提示处理。对于运行熔断规则,系统在SQL请求满足条件时,会阻断该SQL任务。
  • 告警解释 ClickHouse各节点之间,分布式表对应的本地表中,若存在数据倾斜,系统产生此告警。当检测到数据均衡时,告警自动清除。 数据倾斜检测方法: 当参数“min_table_check_data_bytes”值为“0”时,不启用数据倾斜检查。 当参数“min_table_check_data_bytes”值为大于“0”时,启用数据倾斜检查。 启用数据检查后,若表数据量小于min_table_check_data_bytes,则不会因为存在倾斜而上报告警。当数据量大于min_table_check_data_bytes,且节点之间某张表数据量相差大于min_table_data_varies_rate中设置的百分比时,则存在数据倾斜且上报告警。
  • MRS 1.9.3.9补丁说明 补丁号 MRS 1.9.3.9 发布时间 2023-07-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.9补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 支持D系列磁盘热插拔 支持HDFS单副本检测能力 补丁兼容关系 MRS 1.9.3.9补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 MRS 1.9.3.11补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,不需要重启大数据组件。 MRS 1.9.3.10补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,不需要重启大数据组件。 MRS 1.9.3.9补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,安装完需要重启HDFS、YARN、MapReduce、Kafka以及相关依赖服务。 MRS 1.9.3.8补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,安装完需要重启HDFS、YARN、MapReduce、Kafka、Hive、HBase、Spark、Presto以及相关依赖服务。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 1.9.3.8打补丁升级到MRS 1.9.3.9,需要重启MRS 1.9.3.9补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换; 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.3.9及其后续补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。
  • MRS 1.9.3.10补丁说明 补丁号 MRS 1.9.3.10 发布时间 2023-11-10 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.10补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 新增磁盘不可用告警 新增设备分区丢失告警自动清除能力 慢盘/卡io算法优化 慢盘自动隔离机制优化 补丁兼容关系 MRS 1.9.3.10补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 1.9.3.11补丁说明 补丁号 MRS 1.9.3.11 发布时间 2024-02-10 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.11补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持慢盘隔离告警功能 补丁兼容关系 MRS 1.9.3.11补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 如何配置网络ACL出规则? 方案一: 放通网络ACL所有出站流量,此方案能保证集群正常创建与使用,优先建议使用此方案。 图3 放通网络ACL所有出站流量配置示例 方案二: 放通保证集群创建成功的最小出规则,此方案可能在后续使用中因出方向规则遗漏导致集群使用问题,不建议使用方案。若出现集群使用问题请联系运维人员支撑处理。 配置示例:参照方案一中示例,配置策略为“允许”,目的地址为通信安全授权地址、NTP、OBS、Openstack及 DNS地址 的出方向规则。
  • MRS节点引导操作概述 用户可以通过引导操作来完成安装其他第三方软件,修改集群运行环境等自定义操作。 引导操作可以在集群组件首次启动前/后在指定的节点上执行脚本。已运行的集群组件添加的引导操作,只能通过手动方式在节点上执行第三方组件的安装脚本进行安装。 如果集群扩容,选择执行引导操作,则引导操作也会以相同方式在新增节点上执行。如果集群开启弹性伸缩功能,可以在配置资源计划的同时添加自动化脚本,则自动化脚本会在弹性伸缩的节点上执行,实现用户自定义操作。 MRS 2.x及之前版本:引导操作脚本以root身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。脚本内部您可以通过su - xxx命令切换用户。 MRS 3.x及之后版本:引导操作脚本以omm身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。脚本内部您可以通过su - xxx命令切换用户。 MRS通过引导操作脚本返回码来判断结果,如果返回零,则代表脚本执行成功,非零代表执行失败。一个节点上执行某个引导脚本失败,则会导致相应引导脚本失败,您可以通过“失败后操作”来选择是否继续执行后续脚本。 样例1:创建集群指定所有脚本的“失败后操作”均选择“继续”,则不论这些脚本实际执行成功或失败,都会全部执行,并完成启动流程。 样例2:如果一个脚本执行失败,且“失败后操作”选择“终止”,则不会执行后续脚本,集群创建或扩容也随之失败。 您最多可以添加18个引导操作,它们会按照您指定的顺序在集群组件启动前(或后)执行。组件启动前(或后)执行的引导操作,必须在60分钟内完成,否则会引起集群创建或扩容失败。 父主题: 配置MRS集群节点引导操作
  • 使用限制 请在低业务负载时间段进行滚动重启操作。 在滚动重启Kafka服务时, 如果Kafka服务业务吞吐量很高(100MB/s以上的情况下),会出现Kafka服务滚动重启失败的情况。 在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过10000,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。 重启前需要观察当前HBase的负载请求数(原生界面上每个RegionServer的请求数如果超过10000,需要增大handle数来预防超出负载)。 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。 请优先使用滚动重启操作来重启实例或服务,并勾选“仅重启配置过期的实例”。
  • 组件重启参考信息 当前MRS集群中,服务和实例是否支持滚动重启如表2所示。 表2 服务和实例是否支持滚动重启 服务 实例 是否支持滚动重启 Alluxio AlluxioJobMaster 是 AlluxioMaster ClickHouse ClickHouseServer 是 ClickHouseBalancer CDL CDLConnector 是 CDLService Flink FlinkResource 否 FlinkServer Flume Flume 是 MonitorServer Guardian TokenServer 是 HBase HMaster 是 RegionServer ThriftServer RESTServer HetuEngine HSBroker 是 HSConsole HSFabric QAS HDFS NameNode 是 Zkfc JournalNode HttpFS DataNode Hive MetaStore 是 WebHCat HiveServer Hue Hue 否 Impala Impalad 否 StateStore Catalog IoTDB IoTDBServer 是 Kafka Broker 是 KafkaUI 否 Kudu KuduTserver 是 KuduMaster Loader Sqoop 否 Mapreduce JobHistoryServer 是 Oozie oozie 否 Presto Coordinator 是 Worker Ranger RangerAdmin 是 UserSync TagSync Spark JobHistory 是 JD BCS erver SparkResource Storm Nimbus 是 UI Supervisor Logviewer Tez TezUI 否 Yarn ResourceManager 是 NodeManager ZooKeeper Quorumpeer 是 实例启动时长如表3所示: 表3 重启时长参考 服务名称 重启时长 启动时长 附加说明 IoTDB 3min IoTDBServer:3min - CDL 2min CDLConnector:1min CDLService:1min - ClickHouse 4min ClickHouseServer:2min ClickHouseBalancer:2min - HDFS 10min+x NameNode:4min+x DataNode:2min JournalNode:2min Zkfc:2min x为NameNode元数据加载时长,每千万文件大约耗时2分钟,例如5000万文件x为10分钟。 由于受DataNode数据块上报影响启动时间有一定浮动。 Yarn 5min+x ResourceManager:3min+x NodeManager:2min x为ResourceManager保留任务数恢复时长,每1万保留任务大约需要1分钟。 Mapreduce 2min+x JobHistoryServer:2min+x x为历史任务扫描时长,每10万任务大约2.5分钟。 ZooKeeper 2min+x quorumpeer:2min+x x为加载znode节点时长,每100万znode大约1分钟。 Hive 3.5min HiveServer:3min MetaStore:1min30s WebHcat:1min Hive整体服务:3min - Spark2x 5min JobHistory2x:5min SparkResource2x:5min JDBCServer2x:5min - Flink 4min FlinkResource:1min FlinkServer:3min - Kafka 2min+x Broker:1min+x KafkaUI:5 min x为数据恢复时长,单实例20000 partition启动所需时长大约2分钟。 Storm 6min Nimbus:3mins UI:1min Supervisor:1min Logviewer:1min - Flume 3min Flume:2 min MonitorServer:1min - Doris 2分钟 FE:1min BE:1min DBroker:1min -
  • Manager安全功能 通过Manager的以下模块,可以方便的完成用户权限数据的查看和设置。 角色管理:提供角色的增、删、改、查基本功能,提供角色绑定某个或者多个组件的资源访问权限的功能。 具体请参见管理MRS集群角色。 用户组管理:提供用户组的增、删、改、查基本功能,提供用户组绑定角色的功能。 具体请参见管理MRS集群用户组。 用户管理:提供用户的增、删、改、查基本功能,提供用户绑定用户组和角色的功能。 具体请参见管理MRS集群用户。 租户管理:提供租户的增、删、改、查基本功能以及租户与组件资源的绑定关系。MRS集群为了便于管理,为每个租户都会默认产生一个角色。如果定义租户拥有某些资源的权限,则租户对应的角色就拥有这些资源的权限。 具体请参见管理MRS集群租户。
  • 查询Manager版本号 通过查看Manager版本号,可以进行下一步的系统升级及日常维护操作。该操作以MRS 3.x及之后版本集群为例进行说明。 界面方式 登录MRS集群Manager,在主页界面,单击右上角的,在下拉框中单击“关于”,在弹框中查看Manager版本号。 图7 查看版本号 命令方式 以root用户登录Manager主OMS节点。 主OMS节点的IP地址信息可在Manager的“主机”页面中查看带有标志的主机信息。 执行如下命令,查看Manager的版本号及平台信息。 su - omm cd ${BIGDATA_HOME}/om-server/om/sbin/pack ./queryManager.sh 显示如下: Version Package Cputype *** FusionInsight_Manager_*** x86_64 ***表示版本号,具体以实际查询的版本号为准。
  • Manager主页介绍(MRS 3.x版本) FusionInsight Manager“主页”提供各集群服务状态预览区及监控状态报表,同时展示集群内告警统计及分析情况信息。 主页右侧可查看集群的不同级别告警个数、运行任务个数、当前用户和帮助信息等内容,如图3所示。 图3 集群状态信息 单击可查看“任务管理中心”中近100次操作任务的任务名、状态、进度、开始时间和结束时间。 对于启动、停止、重启以及滚动重启操作,在任务执行过程中,单击任务列表中的对应任务名称,单击“中止”按钮,根据界面提示输入系统管理员密码后,用户可中止该任务。中止后,任务将不再继续执行。 主页底部任务栏显示FusionInsight Manager的语言选项和当前集群时间及时区信息,可切换系统语言。 图4 主页底部任务栏 服务状态预览区: 主页界面的左侧展示集群已安装服务组件列表信息,可查看当前集群已安装各服务的状态和告警情况。 每个服务名称左侧的表示当前该服务运行状态良好,表示当前服务启动失败,表示当前服务未启动。 同时服务名称右侧可查看当前该服务是否产生了告警,如果存在告警,则以图标区分告警的级别并显示告警数。 如果服务右侧显示则表示该服务配置已过期。 监控状态报表: 主页界面的右侧为图表区,包含关键监控状态的报表,例如集群中所有主机的状态、主机CPU使用率、主机内存使用率等。用户可以自定义在图表区展示的监控报表,请参考查看MRS集群资源监控指标。 监控图表的数据来源可在图表的左下方查看,每个监控报表可以放大查看具体数值,也可以关闭不再显示。 图5 监控状态的报表 告警分析: MRS 3.3.0及之后版本的Manager主页界面中,告警信息展示页面与历史版本有所不同,具体请以实际页面呈现为准。 “告警分析”页面展示“Top20告警统计”表和“Top3告警分析”图。单击“Top20告警统计”中的告警名称,可以在告警分析中只展示该告警信息。该功能支持告警统计,可以展示TOP告警以及发生的时间规律,可以有针对性地解决告警,提升系统稳定性。 图6 告警分析
  • Manager界面简介 MRS Manager提供统一的集群管理平台,帮助用户快捷、直观的完成集群的运行维护。 图1 MRS 3.x版本Manager界面 界面最上方为操作栏,中部为显示区,最下方为任务栏,操作栏各操作入口的详细功能如下表所示。 表1 界面操作入口功能描述(MRS 3.x版本) 入口 功能描述 主页 提供柱状图、折线图、表格等多种图表方式展示集群的主要监控指标、主机的状态统计。您可以定制关键监控信息面板,并拖动到任意位置。系统概览支持数据自动刷新。 集群 提供各集群内服务监控、服务操作向导以及服务配置,帮助您对服务进行统一管理。 主机 提供主机监控、主机操作向导,帮助您对主机进行统一管理。 运维 提供告警查询、告警处理指导功能。帮助您及时发现产品故障及潜在隐患,并进行定位排除,以保证系统正常运行。 审计 提供审计日志查询及导出功能。帮助您查阅所有用户活动及操作。 租户资源 提供统一租户管理平台。 系统 提供对FusionInsight Manager的系统管理设置,例如用户权限设置。 图2 MRS 2.x版本Manager界面 表2 界面操作入口功能描述(MRS 2.x版本) 界面 功能描述 系统概览 提供柱状图、折线图、表格等多种图表方式展示所有服务的状态、各服务的主要监控指标、主机的状态统计。用户可以定制关键监控信息面板,并拖动到任意位置。系统概览支持数据自动刷新。 服务管理 提供服务监控、服务操作向导以及服务配置,帮助用户对服务进行统一管理。 主机管理 提供主机监控、主机操作向导,帮助用户对主机进行统一管理。 告警管理 提供告警查询、告警处理指导功能。帮助用户及时发现产品故障及潜在隐患,并进行定位排除,以保证系统正常运行。 审计管理 提供审计日志查询及导出功能。帮助用户查阅所有用户活动及操作。 租户管理 提供统一租户管理平台。 系统设置 用户可以进行监控和告警配置管理、备份管理。
  • Manager概述 MRS为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。开源组件结构复杂,安装、配置、管理过程费时费力,使用Manager将为您提供企业级的集群的统一管理平台。 提供集群状态的监控功能,您能快速掌握服务及主机的运行状态。 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。 提供服务属性的配置功能,满足您实际业务的性能需求。 提供集群、服务、角色实例的操作功能,满足您一键启停等操作需求。 提供权限管理及审计功能,您能设置访问控制及管理操作日志。
  • MRS集群服务角色部署规则说明 MRS系统由多种服务按照一定的逻辑架构组合而成,每个服务包含一个或多个角色,每个角色可以部署一个或多个实例。 服务:服务对外表现为集群提供的组件业务能力,集群中的每个组件对应一个服务名,提供一种服务。 角色:角色是服务的组成要素,每个服务由一个或多个角色组成,服务通过角色安装到节点(即服务器)上,保证服务正常运行。 实例:当一个服务的角色安装到节点上,即形成一个实例。每个服务有各自对应的角色实例。 各服务的部署原则如MRS集群部署方案说明所示。 A依赖于B(服务级):若集群中部署A服务,需要提前部署B服务,B为A提供基础能力。 A关联于B(服务级):A服务与B服务在业务进行中会产生数据交互,不存在部署上的依赖关系。 A与B共机部署(角色级):若集群中部署A角色,需要同时部署B角色,且A与B需要部署在相同的节点上。 表2 MRS集群角色部署规则 服务名称 依赖关系 角色名称 角色业务部署建议 OMSServer - OMSServer 部署在Master节点上,不支持修改。 ClickHouse 依赖ZooKeeper CHS(ClickHouseServer) 所有节点均可部署。 角色实例部署数量范围:2~256,必须为偶数个。 CLB(ClickHouseBalancer) 所有节点均可部署。 角色实例部署数量范围:2~256。 Flink 依赖ZooKeeper 依赖KrbServer 依赖DBService 依赖Hadoop FR(FlinkResource) 所有节点均可部署。 角色实例部署数量范围:1~10000。 FS(FlinkServer) 所有节点均可部署。 角色实例部署数量范围:0~2。 Flume - MS(MonitorServer) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 F(Flume) 所有节点均可部署。 角色实例部署数量范围:1~10000。 Hadoop 依赖ZooKeeper NN(NameNode) 只能部署在Master节点上。 角色实例部署数量范围:2。 HFS(HttpFS) 只能部署在Master节点上。 角色实例部署数量范围:0~10。 JN(JournalNode) 只能部署在Master节点上。 角色实例部署数量范围:3~60,步长为2。 DN(DataNode) 所有节点均可部署。 角色实例部署数量范围:3~10000。 RM(ResourceManager) 只能部署在Master节点上。 角色实例部署数量范围:2。 NM(NodeManager) 所有节点均可部署。 角色实例部署数量范围:3~10000。 JHS(JobHistoryServer) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 TLS(TimelineServer) 只能部署在Master节点上。 角色实例部署数量范围:0~1。 HBase 依赖Hadoop HM(HMaster) 只能部署在Master节点上。 角色实例部署数量范围:2。 TS(ThriftServer) 所有节点均可部署。 角色实例部署数量范围:0~10000。 RT(RESTServer) 所有节点均可部署。 角色实例部署数量范围:0~10000。 RS(RegionServer) 所有节点均可部署。 角色实例部署数量范围:3~10000。 TS1(Thrift1Server) 所有节点均可部署。 角色实例部署数量范围:0~10000。 若集群安装了Hue服务并且需要在Hue WebUI使用HBase,HBase服务需安装此实例。 HetuEngine 依赖Hadoop 依赖DBService 依赖Hive 依赖ZooKeeper 依赖KrbServer 依赖Yarn 依赖HDFS HSB(HSBroker) 所有节点均可部署。 角色实例部署数量范围:2~50。 HSC(HSConsole) 所有节点均可部署。 角色实例部署数量范围:2。 HSF(HSFabric) 所有节点均可部署。 角色实例部署数量范围:0~50。 QAS(仅适用于MRS 3.2.0-LTS.1及以后版本) 所有节点均可部署。 角色实例部署数量范围:0~2。 Hive 依赖Hadoop 依赖DBService MS(MetaStore) 只能部署在Master节点上。 角色实例部署数量范围:2~10。 WH(WebHCat) 只能部署在Master节点上。 角色实例部署数量范围:1~10。 HS(HiveServer) 只能部署在Master节点上。 角色实例部署数量范围:2~80。 Hue 依赖DBService H(Hue) 只能部署在Master节点上。 角色实例部署数量范围:2。 Impala 依赖Hadoop 依赖Hive 依赖DBService 依赖ZooKeeper StateStore 只能部署在Master节点上。 角色实例部署数量范围:1。 Catalog 只能部署在Master节点上。 角色实例部署数量范围:1。 Impalad 所有节点均可部署。 角色实例部署数量范围:1~10000。 IoTDB 依赖KrbServer CN(ConfigNode) 只能部署在Master节点上。 角色实例部署数量范围:3~9,步长为2。 IoTDBS(IoTDBServer) 所有节点均可部署。 角色实例部署数量范围:3~256。 Kafka 依赖ZooKeeper B(Broker) 所有节点均可部署。 角色实例部署数量范围:3~10000。 Kudu - KuduMaster 只能部署在Master节点上。 角色实例部署数量范围:3或者5。 KuduTserver 所有节点均可部署。 角色实例部署数量范围:3~10000。 Loader 依赖Hadoop 依赖DBService LS(LoaderServer) 只能部署在Master节点上。 角色实例部署数量范围:2。 Oozie 依赖Hadoop 依赖DBService 依赖ZooKeeper O(oozie) 只能部署在Master节点上。 角色实例部署数量范围:2。 Presto 依赖Hive PCD(Coordinator) 只能部署在Master节点上。 角色实例部署数量范围:2。 PWK(Worker) 所有节点均可部署。 角色实例部署数量范围:1~10000。 Ranger 依赖DBService RA(RangerAdmin) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 USC(UserSync) 只能部署在Master节点上。 角色实例部署数量范围:1。 TSC(TagSync) 所有节点均可部署。 角色实例部署数量范围:0~1。 Spark 依赖Hadoop 依赖Hive 依赖ZooKeeper JS(JDBCServer) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 JH(JobHistory) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 SR(SparkResource) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 Spark2x 依赖Hadoop 依赖Hive 依赖ZooKeeper JS2X(JDBCServer2x) 只能部署在Master节点上。 角色实例部署数量范围:2~10。 JH2X(JobHistory2x) 只能部署在Master节点上。 角色实例部署数量范围:2。 SR2X(SparkResource2x) 只能部署在Master节点上。 角色实例部署数量范围:2~50。 IS2X(IndexServer2x) (可选)只能部署在Master节点上。 角色实例部署数量范围:0~2,步长为2。 Sqoop 依赖Hadoop SC(SqoopClient) 所有节点均可部署。 角色实例部署数量范围:1~10000。 Tez 依赖Hadoop 依赖DBService 依赖ZooKeeper TUI(TezUI) 只能部署在Master节点上。 角色实例部署数量范围:1~2。 ZooKeeper - QP(quorumpeer) 只能部署在Master节点上。 角色实例部署数量范围:3~9,步长为2。
  • MRS集群部署类型说明 表1 MRS集群部署类型 常用模板 说明 节点数量范围 管控合设 管理角色和控制角色共同部署在Master节点中, 数据实例 合设在同一节点组。该部署方式适用于100个以下的节点,可以减少成本。 Master节点数量大于等于3个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。 管控数合设 生产环境或商用环境不推荐使用此场景。 管理节点、控制节点和数据节点合并部署时,集群性能和可靠性都会产生较大影响。 如节点数量满足需求,建议将数据节点单独部署。 Master节点数量大于等于3个,小于等于100个。 节点组数量总和小于等于10个。 管控分设 管理角色和控制角色分别部署在不同的Master节点中,数据实例合设在同一节点组。该部署方式适用于100-500个节点,在高并发负载情况下表现更好。 Master节点数量大于等于5个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。 数据分设 管理角色和控制角色分别部署在不同的Master节点中,数据实例分设在不同节点组。该部署方式适用于500个以上的节点,可以将各组件进一步分开部署,适用于更大的集群规模。 Master节点数量大于等于9个,小于等于11个。 节点组数量总和小于等于10个,非Master节点组中节点数量总和小于等于10000个。
  • MRS自定义策略样例 示例1:授权用户仅有创建MRS集群的权限。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create", "ecs:*:*", "bms:*:*", "evs:*:*", "vpc:*:*", "smn:*:*" ] } ] } 示例2:授权用户具有调整MRS集群的权限。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:resize" ] } ] } 示例3:授权用户创建集群、创建并执行作业、删除单个作业,但不允许用户删除集群的权限。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create", "mrs:job:submit", "mrs:job:delete" ] }, { "Effect": "Deny", "Action": [ "mrs:cluster:delete" ] } ] } 示例4:授权用户最小权限,创建ECS规格的MRS集群。 创建集群时如果使用密钥对,需增加权限“ecs:serverKeypairs:get”和“ecs:serverKeypairs:list”。 创集群时使用数据盘加密,需增加权限“kms:cmk:list”。 创建集群时开启告警功能,需增加权限“mrs:alarm:subscribe”。 创建集群时使用外置数据源,需增加权限“rds:instance:list”。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:cloudServers:updateMetadata", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get", "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:cloudServers:list", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:get", "ecs:cloudServers:create" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:serverFlavors:get" ] } ] } 示例5:授权用户最小权限,创建BMS规格的MRS集群。 创建集群时如果使用密钥对,需增加权限“ecs:serverKeypairs:get”和“ecs:serverKeypairs:list”。 创集群时使用数据盘加密,需增加权限“kms:cmk:list”。 创建集群时开启告警功能,需增加权限“mrs:alarm:subscribe”。 创建集群时使用外置数据源,需增加权限“rds:instance:list”。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:create", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:servers:get", "bms:servers:list", "bms:serverQuotas:get", "bms:servers:updateMetadata", "bms:serverFlavors:get" ] } ] } 示例6:授权用户最小权限,创建ECS和BMS混合集群。 创建集群时如果使用密钥对,需增加权限“ecs:serverKeypairs:get”和“ecs:serverKeypairs:list”。 创集群时使用数据盘加密,需增加权限“kms:cmk:list”。 创建集群时开启告警功能,需增加权限“mrs:alarm:subscribe”。 创建集群时使用外置数据源,需增加权限“rds:instance:list”。 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:cloudServers:updateMetadata", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get", "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:cloudServers:list", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:get", "ecs:cloudServers:create" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:servers:get", "bms:servers:list", "bms:serverQuotas:get", "bms:servers:updateMetadata", "bms:serverFlavors:get" ] } ] }
  • 多租户资源概述 MRS集群的资源分为计算资源和存储资源。多租户可实现资源的隔离。 计算资源 计算资源包括CPU和内存。租户之间不可以相互占用计算资源,私有计算资源独立。 计算资源可分为静态服务资源和动态资源: 大数据集群为Yarn分配的资源是静态服务资源,可以由Yarn动态分配给任务队列计算使用。 静态服务资源 静态服务资源是集群分配给各个服务的计算资源,每个服务的计算资源总量固定,不与其他服务共享,是静态的。这些服务包括Flume、HBase、HDFS和Yarn。 动态资源 Yarn是大数据集群中的分布式资源管理服务,大数据集群为Yarn分配资源,资源总量可配置。Yarn内部为任务队列进一步分配和调度计算资源。对于MapReduce、Spark、Flink和Hive的任务队列,计算资源完全由Yarn来分配和调度。 Yarn任务队列是计算资源分配的基本单位。 对于租户,通过Yarn任务队列申请到的资源是动态资源。用户可以动态创建并修改任务队列的配额,可以查看任务队列的使用状态和使用统计。 资源池: 现代企业IT经常会面对纷繁复杂的集群环境和上层需求。例如以下业务场景: 集群异构,集群中各个节点的计算速度、存储容量和网络性能存在差异,需要把复杂应用的所有任务按照需求,合理地分配到各个计算节点上。 计算分离,多个部门需要数据共享,但是需要把计算完全分离在不同的计算节点上。 这就要求对计算资源的节点进一步分区。 资源池用来指定动态资源的配置。Yarn任务队列和资源池关联,可实现资源的分配和调度。 一个租户只能设置一个默认资源池。用户通过绑定租户相关的角色,来使用该租户资源池的资源。若需要使用多个资源池的资源,可通过绑定多个租户相关的角色实现。 动态资源调度机制: Yarn动态资源支持标签调度(Label Based Scheduling)策略,此策略通过为计算节点(Yarn NodeManager)创建标签(Label),将具有相同标签的计算节点添加到同一个资源池中,Yarn根据任务队列对资源的需求,将任务队列和有相应标签的资源池动态关联。 例如,集群中有40个以上的节点,根据各节点的硬件和网络配置,分别用Normal、HighCPU、HighMEM、HighIO为四类节点创建标签,添加到四个资源池中,资源池中的各节点性能如表3所示。 表3 不同资源池中的各节点性能 标签名 节点数 硬件和网络配置 添加到 关联 Normal 10 一般 资源池A 普通的任务队列 HighCPU 10 高性能CPU 资源池B 计算密集型的任务队列 HighMEM 10 大量内存 资源池C 内存密集型的任务队列 HighIO 10 高性能网络 资源池D IO密集型的任务队列 任务队列只能使用所关联的资源池里的计算节点。 普通的任务队列关联资源池A,使用硬件和网络配置一般的Normal节点。 计算密集型的任务队列关联资源池B,使用具有高性能CPU的HighCPU节点。 内存密集型的任务队列关联资源池C,使用具有大量内存的HighMEM节点。 IO密集型的任务队列关联资源池D,使用具有高性能网络的HighIO节点。 Yarn任务队列与特定的资源池关联,可以更有效地使用资源,保证节点性能充足且互不影响。 FusionInsight Manager中最多支持添加50个资源池。系统默认包含一个默认资源池。 存储资源 存储资源包括磁盘或第三方存储系统。租户之间不可以相互访问数据,私有存储资源独立。 HDFS是大数据集群中的分布式文件存储服务,存放大数据集群上层应用的所有用户数据,例如写入HBase表或Hive表的数据。 目录是HDFS存储资源分配的基本单位。HDFS支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,在目录中创建、删除、移动或重命名文件。租户通过指定HDFS文件系统的目录来获取存储资源。 存储资源调度机制如下: 系统支持将HDFS目录存储到指定标签的节点上,或存储到指定硬件类型的磁盘上。例如以下业务场景: 实时查询与数据分析共集群时,实时查询只需部署在部分节点上,其数据也应尽可能的只存储在这些节点上。 关键数据根据实际业务需要保存在具有高度可靠性的节点中。 管理员可以根据实际业务需要,通过数据特征灵活配置HDFS数据存储策略,将数据保存在指定的节点上。 对于租户,存储资源是各租户所占用的HDFS资源。可以通过将指定目录的数据存储到租户配置的存储路径中,实现存储资源调度,保证租户间的数据隔离。 用户可以添加/删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额来管理存储资源。
  • 调度器介绍 多租户根据调度器类型分为开源的Capacity调度器和增强型Superior调度器,MRS集群默认即启用了Superior调度器。 Capacity调度器为开源的容量调节器。 Superior调度器为增强型,Superior取名源自苏必利尔湖,意指由该调度器管理的数据足够大。 调度器类型可通过Yarn服务的“yarn.resourcemanager.scheduler.class”参数值查询。调度器类型切换参考切换MRS租户资源调度器。 为满足企业需求,克服Yarn社区在调度上遇到的挑战与困难,Superior调度器不仅集合了当前Capacity调度器与Fair调度器的优点,还做了以下增强: 增强资源共享策略 Superior调度器支持队列层级,在同集群集成开源调度器的特性,并基于可配置策略进一步共享资源。针对实例,管理员可通过Superior调度器为队列同时配置绝对值或百分比的资源策略计划。Superior调度器的资源共享策略将Yarn的标签调度增强为资源池特性,Yarn集群中的节点可根据容量或业务类型不同,进行分组以使队列更有效地利用资源。 基于租户的资源预留策略 部分租户可能在某些时间中运行关键任务,租户所需的资源应保证可用。Superior调度器构建了支持资源预留策略的机制,在这些租户队列运行的任务可立即获取到预留资源,以保证计划的关键任务可正常执行。 租户和资源池的用户公平共享 Superior调度器提供了队列内用户间共享资源的配置能力。每个租户中可能存在不同权重的用户,高权重用户可能需要更多共享资源。 大集群环境下的调度性能优势 Superior调度器接收到各个NodeManager上报的心跳信息,并将资源信息保存在内存中,使得调度器能够全局掌控集群的资源使用情况。Superior调度器采用了push调度模型,令调度更加精确、高效,大大提高了大集群下的资源使用率。另外,Superior调度器在NodeManager心跳间隔较大的情况下,调度性能依然优异,不牺牲调度性能,也能避免大集群环境下的“心跳风暴”。 优先策略 当某个服务在获取所有可用资源后还无法满足最小资源的要求,则会发生优先抢占。抢占功能默认关闭。
  • 多租户概述 背景介绍: 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。 这给大数据集群带来了以下挑战: 合理地分配和调度资源,以支持多种应用和作业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。 多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 对此,MRS企业级大数据集群提供了完整的企业级大数据多租户解决方案。 MRS多租户介绍: MRS集群拥有的不同资源和服务支持多个组织、部门或应用共享使用。集群提供了一个逻辑实体来统一使用不同资源和服务,这个逻辑实体就是租户。当前仅分析集群支持租户。 多个不同的租户统称多租户。多租户是MRS集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源的能力。资源包括计算资源和存储资源。MRS集群提供多租户的功能,支持层级式的租户模型,支持动态添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。 存储资源目前支持HDFS存储,可以添加删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额。 租户可以在界面上根据业务需要,在集群中创建租户、管理租户。 创建租户时将自动创建租户对应的角色、计算资源和存储资源。默认情况下,新的计算资源和存储资源的全部权限将分配给租户的角色。 默认情况下,查看当前租户的资源,在当前租户中添加子租户并管理子租户资源的权限将分配给租户的角色。 修改租户的计算资源或存储资源,对应的角色关联权限将自动更新。 MRS中最多支持512个租户。系统默认创建的租户包含“default”。和默认租户同处于最上层的租户,可以统称为一级租户。 资源池介绍: Yarn任务队列支持一种调度策略,称为标签调度(Label Based Scheduling)。通过此策略,Yarn任务队列可以关联带有特定节点标签(Node Label)的NodeManager,使Yarn任务在指定的节点运行,实现任务的调度与使用特定硬件资源的需求。例如,需要使用大量内存的Yarn任务,可以通过标签关联具有大量内存的节点上运行,避免性能不足影响业务。 在MRS集群中,租户从逻辑上对Yarn集群的节点进行分区,使多个NodeManager形成一个资源池。Yarn任务队列通过配置队列容量策略,与指定的资源池进行关联,可以更有效地使用资源池中的资源,且互不影响。 MRS中最多支持50个资源池。系统默认包含一个“default”资源池。 多租户优势介绍: 合理配置和隔离资源 租户之间的资源是隔离的,一个租户对资源的使用不影响其他租户,保证了每个租户根据业务需求去配置相关的资源,可提高资源利用效率。 测量和统计资源消费 系统资源以租户为单位进行计划和分配,租户是系统资源的申请者和消费者,其资源消费能够被测量和统计。 保证数据安全和访问安全 多租户场景下,分开存放不同租户的数据,以保证数据安全;控制用户对租户资源的访问权限,以保证访问安全。
共100000条