华为云用户手册

  • 相关模型 多租户相关模型: 多租户相关模型如下图所示。 图1 多租户相关模型 图1中涉及的概念如表1所示。 表1 相关概念说明 概念 说明 用户 用户是拥有用户名,密码等账号信息的自然人,是大数据集群的使用者。 图中有三个不同的用户:用户A、用户B和用户C。 角色 角色是承载一个或多个权限的载体。权限是限定在具体对象上的,例如对HDFS中的“/tenant”目录的访问权限,这里权限就限定在“/tenant”目录这个具体对象上。 图中有四个不同的角色:角色“t1”、角色“t2”、角色“t3”和角色“Manager_tenant”。 角色“t1”、角色“t2”和角色“t3”为创建租户时,集群自动生成的角色,角色名和租户名相同,分别对应租户“t1”、租户“t2”和租户“t3”,不能单独使用。 角色“Manager_tenant”为集群中本身存在的角色,不能单独使用。 租户 租户是从大数据集群中划分出的资源集合。多个不同的租户统称为多租户,租户内部进一步划分出的资源集合是子租户。 图中有三个不同的租户:租户“t1”、租户“t2”和租户“t3”。 资源 计算资源包括CPU和内存。 租户的计算资源是从集群总计算资源中划分出的,租户之间不可以互占计算资源。 图中:计算资源1、计算资源2和计算资源3分别是租户“t1”、租户“t2”和租户“t3”从集群中划分出的计算资源。 存储资源包括磁盘或第三方存储系统。 租户的存储资源是从集群总存储资源中划分出的,租户之间不可以互占存储资源。 图中:存储资源1、存储资源2和存储资源3分别是租户“t1”、租户“t2”和租户“t3”从集群中划分出的存储资源。 若用户想要使用租户资源或为租户添加/删除子租户,则需要同时绑定该租户对应的角色和角色“Manager_tenant”。在图1中,各用户绑定的角色如表2所示。 表2 各用户绑定的角色 用户 绑定的角色 权限 用户A 角色“t1” 角色“t2” 角色“Manager_tenant” 使用租户“t1”和租户“t2”的资源。 为租户“t1”和租户“t2”添加/删除子租户。 用户B 角色“t3” 角色“Manager_tenant” 使用租户“t3”的资源。 为租户“t3”添加/删除子租户。 用户C 角色“t1” 角色“Manager_tenant” 使用租户“t1”的资源。 为租户“t1”添加/删除子租户。 用户和角色是多对多的关系,一个用户可以绑定多个角色,一个角色可以被多个用户绑定。用户通过绑定角色和租户建立关系,因此用户和租户也是多对多的关系。一个用户可以使用多个租户的资源,多个用户也可以使用同一个租户的资源,例如图1中,用户A使用租户“t1”和租户“t2”的资源,用户A和用户C都使用租户“t1”的资源。 “父租户”、“子租户”、“一级租户”、“二级租户”的概念是针对客户的多租户业务场景设定的,注意与 FusionInsight Manager上的“叶子租户资源”和“非叶子租户资源”的概念区别。 一级租户:按照租户所在层级确定名称,如最初创建的租户为一级租户,一级租户的子租户为二级租户。 父租户与子租户:用来表述租户间上下层级关系的称呼。 非叶子租户资源:创建租户时,选择的租户类型,该类型可以创建子租户。 叶子租户资源:创建租户时,选择的租户类型,该类型不可以创建子租户。 多租户平台: 租户是 MRS 大数据平台的核心概念,使传统的以用户为核心的大数据平台向以多租户为核心的大数据平台转变,更好的适应现代企业多租户应用环境,如图2所示。 图2 以用户为核心的平台和以多租户为核心的平台 对于以用户为核心的大数据平台,用户直接访问并使用全部的资源和服务。 用户的应用可能只用到集群的部分资源,资源利用效率低。 不同用户的数据可能存放在一起,难以保证数据安全。 对于以租户为核心的大数据平台,用户通过访问租户来使用需要的资源和服务。 按照应用需求分配和调度出需要的资源,以租户来统一使用,资源利用效率高。 用户通过分配不同的角色获得使用不同租户资源的权限,以保障访问安全。 不同的租户之间数据隔离,以保证数据安全。
  • 告警解释 系统每30秒周期性检测主机中omm用户D状态和Z状态进程数,并把实际进程数和阈值相比较。主机D状态和Z状态进程数默认提供一个阈值范围。当检测到进程数超出阈值范围时产生该告警。 平滑次数为1,主机中omm用户D状态和Z状态进程总数小于或等于阈值时,告警恢复;平滑次数大于1,主机中omm用户D状态和Z状态进程总数小于或等于阈值的90%时,告警恢复。 主机Z状态进程数检测功能适用于MRS 3.2.0及之后版本。
  • 通过Manager查看与清除告警(MRS 2.x及之前版本) 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看“告警参考”章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 通过管理控制台查看与清除告警 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 单击“全部导出”,在弹框内选择“保存类型”,单击“确定”可导出告警。 表1 告警信息说明 参数 参数说明 告警ID 告警的ID。 告警名 告警的名称。 级别 告警级别。 MRS 3.x之前版本集群告警级别为: 致命 指集群服务不可用,节点故障、 GaussDB 主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 严重 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 一般 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 MRS 3.x及之后版本集群告警级别为: 紧急 指集群服务不可用,节点故障、GaussDB主备数据不同步、LdapServer数据同步异常等影响集群正常运行的告警,需要根据告警及时检查集群情况并恢复。 重要 指集群部分功能不可用的告警,包括进程故障、周期备份任务失败、关键文件权限异常等,需要根据告警及时检查报告告警的对象并恢复。 次要 指不影响当前集群主要功能的告警,包括证书文件即将过期、审计日志转储失败、License文件即将过期等告警。 提示 指级别最低的一种告警,起到信息展示或信息提示的作用,标识这件事情的发生,一般包括:停止服务、删除服务、停止实例、删除实例、删除节点、重启服务、重启实例、Manager主备倒换、缩容主机、实例恢复、实例故障、作业执行成功、作业执行失败等。 生成时间 产生告警的时间。 定位信息 告警的详细信息。 操作 当告警可手动清除时,单击“清除告警”进行处理。 需要查看告警详情时,单击“查看帮助”进行查看(MRS 3.x及之后版本支持)。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看“告警参考”章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 通过执行脚本确定主备管理节点 获取MRS集群的Master节点信息。 登录MRS管理控制台,选择“现有集群”,单击待操作集群名称,进入集群信息页面。 单击“节点管理”查看Master节点名称,名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。 确认集群主备管理节点。 远程登录Master1节点,请参见登录MRS集群节点。 Master节点支持Cloud-Init特性,Cloud-init预配置的用户名“root”,密码为创建集群时设置的密码。 执行以下命令切换用户。 sudo su - root su - omm 执行以下命令确认主备管理节点: MRS 3.x之前版本集群执行命令: sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh MRS 3.x及之后版本集群执行命令: sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh 回显信息中“HAActive”参数值为“active”的节点为主管理节点(如下例中“mgtomsdat-sh-3-01-1”为主管理节点),参数值为“standby”的节点为备管理节点(如下例中“mgtomsdat-sh-3-01-2”为备管理节点)。 Ha mode double NodeName HostName HAVersion StartTime HAActive HAAllResOK HARunPhase 192-168-0-30 mgtomsdat-sh-3-01-1 V100R001C01 20xx-11-18 23:43:02 active normal Actived 192-168-0-24 mgtomsdat-sh-3-01-2 V100R001C01 20xx-11-21 07:14:02 standby normal Deactived 如果当前登录的Master1节点是备管理节点,且需要登录到主管理节点时,请执行以下命令: ssh Master2节点IP地址
  • 在Manager查看主备管理节点 当前操作仅适用于MRS 3.x及之后版本。 登录Manager页面,具体操作请参考访问MRS集群Manager。 单击“主机”,进入主机页面。 查看并记录主备管理节点IP。 图1 查看并记录主备管理节点IP 主机名称前带有表示主管理节点(主 OMS 节点),查看对应主机行的“管理IP”,即为对应节点IP。 主机名称前带有表示备管理节点(备OMS节点),查看对应主机行的“管理IP”,即为对应节点IP。
  • MRS集群节点弹性伸缩指标说明 节点组维度策略 在添加规则时,可以参考表1配置相应的指标。 表1 弹性伸缩指标列表 集群类型 指标名称 数值类型 说明 流式集群 StormSlotAvailable 整型 Storm组件的可用slot数。 取值范围为[0~2147483646]。 StormSlotAvailablePercentage 百分比 Storm组件可用slot百分比。是可用slot数与总slot数的比值。 取值范围为[0~100]。 StormSlotUsed 整型 Storm组件的已用slot数。 取值范围为[0~2147483646]。 StormSlotUsedPercentage 百分比 Storm组件已用slot百分比。是已用slot数与总slot数的比值。 取值范围为[0~100]。 StormSupervisorMemAverageUsage 整型 Storm组件Supervisor的内存平均使用量。 取值范围为[0~2147483646]。 StormSupervisorMemAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的内存占系统总内存的平均百分比。 取值范围[0 ~ 100]。 StormSupervisorCPUAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的CPU占系统总CPU的平均百分比。 取值范围[0 ~ 6000]。 分析集群 YARNAppPending 整型 YARN组件挂起的任务数。 取值范围为[0~2147483646]。 YARNAppPendingRatio 比率 YARN组件挂起的任务数比例。是YARN挂起的任务数与YARN运行中的任务数比值。 取值范围为[0~2147483646]。 YARNAppRunning 整型 YARN组件运行中的任务数。 取值范围为[0~2147483646]。 YARNContainerAllocated 整型 YARN组件中已分配的container个数。 取值范围为[0~2147483646]。 YARNContainerPending 整型 YARN组件挂起的container个数。 取值范围为[0~2147483646]。 YARNContainerPendingRatio 比率 YARN组件挂起的container比率。是挂起的container数与运行中的container数的比值。 取值范围为[0~2147483646]。 YARNCPUAllocated 整型 YARN组件已分配的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailable 整型 YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailablePercentage 百分比 YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 YARNCPUPending 整型 YARN组件挂起的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNMemoryAllocated 整型 YARN组件已分配内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailable 整型 YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailablePercentage 百分比 YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 YARNMemoryPending 整型 YARN组件挂起的内存大小。 取值范围为[0~2147483646]。 表1中指标数值类型为百分比或比率时,有效数值可精确到百分位。其中百分比类型指标数值为去除百分号(%)后的小数值,如16.80即代表16.80%。 混合集群的支持分析集群和流式集群的所有指标。 资源池维度策略 在添加规则时,可以参考表2配置相应的指标。 MRS 3.1.5及其之后的版本支持配置资源池维度策略。 表2 规则配置项说明 集群类型 指标名称 数值类型 说明 分析集群/自定义集群 ResourcePoolMemoryAvailable 整型 资源池YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 ResourcePoolMemoryAvailablePercentage 百分比 资源池YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 ResourcePoolCPUAvailable 整型 资源池YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 ResourcePoolCPUAvailablePercentage 百分比 资源池YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 在添加资源计划时,可以参考表3配置相应的参数。 表3 资源计划配置项说明 配置项 说明 生效日期 资源计划的生效日期。默认是每日生效,也可以选择周一至周日任意一天或几天生效。 时间范围 资源计划的起始时间和结束时间,精确到分钟,取值范围[00:00, 23:59]。例如资源计划开始于早上8:00,结束于10:00,则配置为8:00-10:00。结束时间必须晚于开始时间至少30分钟。 节点数量范围 资源计划内的节点数量上下限,取值范围[0,500],在资源计划时间内,集群Task节点数量小于最小节点数时,弹性伸缩会将集群Task节点一次性扩容到最小节点数。在资源计划时间内,集群Task节点数量大于最大节点数时,弹性伸缩会将集群Task节点一次性缩容到最大节点数。最小节点数必须小于或等于最大节点数。 当启用资源计划时,弹性伸缩配置中的“默认节点数量范围”将在资源计划外的时间段内强制生效。例如“默认节点数量范围”配置为1-2,配置资源计划:08:00-10:00之间节点数量范围为4-5,则在一天中的非资源计划时间段(0:00-8:00以及10:00-23:59)内,Task节点会被强制限制在1个到2个中间,若节点数量大于2则触发自动缩容,若节点数量小于1则触发自动扩容。 当不启用资源计划时,节点数量范围的“默认范围”会在全部时间范围生效,如果节点数量不在“节点数量范围”的默认范围,主动增减Task节点数量到默认范围内。 资源计划间时间段不可交叉,时间段交叉意为某个时间点存在两个生效的资源计划,例如配置资源计划1在08:00-10:00生效,资源计划2在09:00-11:00生效,则两个资源计划存在时间段交叉,交叉时间段09:00-10:00。 资源计划不能跨天配置,例如要配置23:00至次日01:00的资源计划,请配置时间段为23:00-00:00和00:00-01:00的两个资源计划。 自动化脚本 在添加自动化脚本时,可以参考表4配置相应参数。 表4 自动化脚本配置说明 配置项 说明 名称 自动化脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。 说明: 同一集群内,不允许配置相同的名称。不同集群之间,可以配置相同的名称。 脚本路径 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以.sh结尾。例如,安装Zepelin的示例脚本路径如下:/opt/bootstrap/zepelin/zepelin_install.sh 执行节点 选择自动化脚本所执行的节点类型。 说明: 如果选择Master节点,您可以通过开关选择是否只在Active Master节点执行此脚本。 如果选择开启此功能,表示只在Active Master节点上执行。如果选择关闭,表示在所有Master节点执行。默认关闭。 参数 自动化脚本参数,支持通过传入以下预定义变量获得弹性伸缩相关信息: ${mrs_scale_node_num} :弹性伸缩节点数量,总是正数 ${mrs_scale_type} :弹性伸缩类型,扩容为“scale_out”,缩容为“scale_in” ${mrs_scale_node_hostnames} :弹性伸缩节点的主机名,多个主机名之间以“,”隔开 ${mrs_scale_node_ips} :弹性伸缩节点的IP,多个IP之间以“,”隔开 ${mrs_scale_rule_name}:触发弹性伸缩的规则名,如果是资源计划则为“resource_plan” 执行时机 选择自动化脚本执行的时间。支持“扩容前”、“扩容后”、“缩容前”、“缩容后”四种类型。 说明: 假设执行节点类型中包含Task节点: 执行时机为扩容前的脚本不会在将要扩容出的Task节点上执行。 执行时机为扩容后的脚本会在扩容出的Task节点上执行。 执行时机为缩容前的脚本会在即将被删除的Task节点上执行。 执行时机为缩容后的脚本不会在已经被删除的Task节点上执行。 失败操作 该脚本执行失败后,是否继续执行后续脚本和扩缩容操作。 说明: 建议您在调试阶段设置为“继续”,无论此脚本是否执行成功,则集群都能继续扩缩容操作。 若脚本执行失败,请到集群虚拟机的“/var/log/Bootstrap”路径下查看失败日志。 由于缩容成功不可回滚,缩容后执行的脚本失败操作只能选择“继续”。 自动化脚本只在弹性伸缩时触发,手动调整集群节点时不会运行。
  • E CS 规格 表1 通用计算增强型(C型)弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 C3型 32 64 c3.8xlarge.2 KVM C3型 16 64 c3.4xlarge.4 KVM C3型 32 128 c3.8xlarge.4 KVM C3型 60 256 c3ne.15xlarge.4 KVM C3ne型 32 64 c3ne.8xlarge.2 KVM C3ne型 16 64 c3ne.4xlarge.4 KVM C3ne型 32 128 c3ne.8xlarge.4 KVM C3ne型 60 256 c3ne.15xlarge.4 KVM C6型 32 64 c6.8xlarge.2 KVM C6型 64 128 c6.16xlarge.2 KVM C6型 16 64 c6.4xlarge.4 KVM C6型 32 128 c6.8xlarge.4 KVM C6型 64 256 c6.16xlarge.4 KVM C6s型 32 64 c6s.8xlarge.2 KVM C6s型 64 128 c6s.16xlarge.2 KVM C7型 32 64 c7.8xlarge.2 基于擎天架构的自研极简虚拟化 C7型 64 128 c7.16xlarge.2 基于擎天架构的自研极简虚拟化 C7型 128 256 c7.32xlarge.2 基于擎天架构的自研极简虚拟化 C7型 16 64 c7.4xlarge.4 基于擎天架构的自研极简虚拟化 C7型 32 128 c7.8xlarge.4 基于擎天架构的自研极简虚拟化 C7型 64 256 c7.16xlarge.4 基于擎天架构的自研极简虚拟化 C7型 128 512 c7.32xlarge.4 基于擎天架构的自研极简虚拟化 表2 内存优化型弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 M3型 8 64 m3.2xlarge.8 KVM M3型 16 128 m3.4xlarge.8 KVM M3型 32 256 m3.8xlarge.8 KVM M3型 60 512 m3.15xlarge.8 KVM M6型 8 64 m6.2xlarge.8 KVM M6型 16 128 m6.4xlarge.8 KVM M6型 32 256 m6.8xlarge.8 KVM M6型 64 512 m6.16xlarge.8 KVM M7型 8 64 m7.2xlarge.8 基于擎天架构的自研极简虚拟化 M7型 16 128 m7.4xlarge.8 基于擎天架构的自研极简虚拟化 M7型 32 256 m7.8xlarge.8 基于擎天架构的自研极简虚拟化 M7型 64 512 m7.16xlarge.8 基于擎天架构的自研极简虚拟化 M7型 128 1024 m7.32xlarge.8 基于擎天架构的自研极简虚拟化 表3 鲲鹏通用计算增强型(KC1型)弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 KC1型 16 64 kc1.4xlarge.4 KVM KC1型 32 64 kc1.8xlarge.2 KVM KC1型 32 128 kc1.8xlarge.4 KVM KC1型 60 120 kc1.15xlarge.2 KVM 表4 鲲鹏内存优化型(KM1型)弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 KM1型 8 64 km1.2xlarge.8 KVM KM1型 16 128 km1.4xlarge.8 KVM KM1型 32 256 km1.8xlarge.8 KVM KM1型 60 480 km1.15xlarge.8 KVM 表5 鲲鹏超高I/O型(KI1型)弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 KI1型 16 64 ki1.4xlarge.4 KVM KI1型 32 128 ki1.8xlarge.4 KVM KI1型 64 228 ki1.16xlarge.4 KVM 表6 超高I/O型弹性云服务器的规格 类型 vCPU 内存(GB) 规格名称 虚拟化类型 I3型 8 64 i3.2xlarge.8 KVM I3型 16 128 i3.4xlarge.8 KVM I3型 32 256 i3.8xlarge.8 KVM I3型 64 512 i3.16xlarge.8 KVM IR3型 16 64 ir3.4xlarge.4 KVM IR3型 32 128 ir3.8xlarge.4 KVM
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.10 发布时间 2020-09-21 解决的问题 MRS 2.1.0.10 修复问题列表: MRS Manager 解决安装补丁后扩容会导致capacity-schedule.xml中新增的队列配置丢失问题 回退全链路监控 大数据组件 解决spark操作hive赋权失败问题 解决不指定队列,默认提交到launcher-job队列,影响任务正常运行问题 MRS 2.1.0.9 修复问题列表: MRS Manager 解决MRS Executor内存溢出问题 优化扩容流程 解决sparkSql包含空格的情况拼接sql错误问题 解决偶现HiveSql作业提交失败问题 优化keytab文件下载的权限控制 大数据组件 解决Presto角色名称包含大写字母,权限模型未生效问题 解决Hive删除分区慢的问题 解决Spark长时间运行Token过期问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,ECS接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.10补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
  • 操作步骤 添加策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 defaults(default setting)表示如果一个用户未配置全局用户策略,则默认使用defaults所指定的策略。该策略不可删除。 单击“添加全局用户策略”,在弹出窗口中填写以下参数。 图1 全局用户策略 集群:选择需要操作的集群。(MRS 3.3.0及之后版本集群无该参数) 用户名:表示需要控制资源调度的用户,请输入当前集群中已存在用户的名称。 最大运行任务数:表示该用户在当前集群中能运行的最大任务数量。 最大挂起任务数:表示该用户在当前集群中能挂起的最大任务数量。 默认队列:表示用户的队列,请输入当前集群中已存在队列的名称。 修改策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 在指定用户策略所在行,单击“操作”列中的“修改”。 调整相关参数后,单击“确定”。 删除策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 在指定用户策略所在行,单击“操作”列中的“删除”。 在弹出窗口单击“确定”。
  • 操作场景 为了确保元数据信息安全,或者用户在对元数据功能进行重大操作(如扩容缩容、安装补丁包、升级或迁移等)前后,需要对元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。元数据包含OMS数据、LdapServer数据、DBService数据和NameNode数据。备份Manager数据包含同时备份OMS数据和LdapServer数据。 默认情况下,元数据备份由“default”任务支持。该任务指导用户通过MRS Manager创建备份任务并备份元数据。支持创建任务自动或手动备份数据。
  • 告警解释 MRS 3.1.5版本:系统每60秒周期性检测Impalad的Hive Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。 除MRS 3.1.5的其他版本:系统每60秒周期性检测Impalad是否能执行select 1,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当SQL在20秒内正确执行时,告警恢复。
  • 参考信息 表2 “安全级别”和“Facility”字段数值编码 安全级别 Facility 数值编码 Emergency kernel messages 0 Alert user-level messages 1 Critical mail system 2 Error system daemons 3 Warning security/authorization messages (note 1) 4 Notice messages generated internally by syslog 5 Informational line printer subsystem 6 Debug network news subsystem 7 - UUCP subsystem 8 - clock daemon (note 2) 9 - security/authorization messages (note 1) 10 - FTP daemon 11 - NTP subsystem 12 - log audit (note 1) 13 - log alert (note 1) 14 - clock daemon (note 2) 15 - local use 0~7 (local0 ~ local7) 16~23 表3 报文格式信息域表 信息域 描述 dn 集群名称 id 告警ID name 告警名称 serialNo 告警序列号 说明: 故障告警及其对应的恢复告警的告警序列号相同。 category 告警类型,取值范围: 0:故障告警 1:恢复告警 2:事件 occurTime 告警产生时间 clearTime 告警清除时间 isAutoClear 告警是否自动清除,取值范围: 1:是 0:否 locationInfo 告警位置信息 clearType 告警清除类型,取值范围: -1:未清除 0:自动清除 2:手动清除 level 告警级别,取值范围: 1:紧急告警 2:重要告警 3:次要告警 4:提示告警 cause 告警原因 additionalInfo 附加信息 object 告警对象
  • 卸载补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面的“集群组件补丁”页签,在操作列表中单击待卸载补丁名称后的“卸载”,卸载目标补丁。 在弹出的说明窗口中勾选说明信息,并单击“是”,等待补丁卸载成功。 按照补丁说明进行重启组件和卸载客户端补丁操作。 若集群中存在被隔离主的机,集群中被隔离的主机节点不会进行补丁卸载,卸载完成后补丁状态更新为部分卸载成功。隔离节点修复并取消隔离后,可以再次点击“卸载”,此时补丁卸载仅对取消隔离的节点实施。对于MRS 3.x之前的版本,可参考修复隔离MRS集群主机补丁进行操作。
  • 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面的“集群组件补丁”,在操作列表中单击待安装补丁名称后的“安装”,安装目标补丁。 安装补丁操作步骤和补丁实施的影响,具体请参考MRS集群补丁说明。 在弹窗口中勾选“我已经阅读《补丁说明》并了解此操作可能需要重启服务。”,单击“是”,等待补丁安装成功。 查看补丁状态,补丁安装完成后,按照补丁说明进行重启组件和安装客户端补丁等操作。 若集群中存在被隔离的主机,集群中被隔离的主机节点不会进行补丁安装,安装完成后补丁状态更新为部分安装成功。隔离节点修复并取消隔离后,可以再次单击“安装”,此时补丁安装仅对取消隔离的节点实施。对于MRS 3.x之前的版本,可参考修复隔离MRS集群主机补丁进行操作。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.0.1.2 发布时间 2019-09-30 解决的问题 MRS 2.0.1.2 修复问题列表: MRS Manager 解决RM执行refreshNodes超时导致的偶现扩容失败问题 MRS 2.0.1.1 修复问题列表: MRS Manager 解决反复扩缩容导致MRS Master节点executor内存溢出问题 MRS大数据组件 MRS Presto新增Presto支持OBSFileSystem MRS Presto解决频繁打印jstack,以及日志文件太大不滚动问题 补丁兼容关系 MRS 2.0.1.2补丁包中包含MRS 2.0.1.1补丁包的全部内容。
  • 约束条件 对于已安装HBase组件的节点组扩容时: 如果集群没有开启节点自动注册DNS,扩容该节点组时需选择不启动组件,之后请参考服务端配置过期后更新MRS集群客户端更新完HBase客户端配置后再启动扩容节点上的HBase组件实例。 以下版本默认开启了集群自动注册DNS,也可以请通过查询对应版本元数据查询返回体中features字段是否包含register_dns_server这个值来判断是否支持DNS特性。 MRS 1.9.3、MRS 3.1.0、MRS 3.1.2-LTS、MRS 3.1.5以及MRS 3.2.0-LTS。 扩容后,集群内节点已安装的客户端无需更新,集群外节点安装的客户端请参考服务端配置过期后更新MRS集群客户端进行更新。 扩容后,如需对HDFS数据进行均衡操作,请参考配置DataNode容量均衡。如需对Kafka数据进行均衡操作,请参考Kafka均衡工具使用说明。
  • 扩容按需集群 登录MRS管理控制台。 选择“现有集群” ,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“节点管理”页签,在需要扩容的节点组的“操作”列单击“扩容”,进入扩容集群页面。 只有运行中的集群才能进行扩容操作。 设置“系统盘”和“数据盘”的类型、“扩容节点数量”、“启动组件”和“执行引导操作”参数,并单击“确定”。“启动组件”和“执行引导操作”参数部分版本的集群可能不支持,请以界面实际参数为准。 若集群中没有Task节点组,请参考相关任务配置Task节点。 如果创建集群时添加了引导操作,则“执行引导操作”参数有效,开启该功能时扩容的节点会把创建集群时添加的引导操作脚本都执行一遍。 如果“新节点规格”参数有效,则表示与原有节点相同的规格已售罄或已下架,新扩容的节点将按照“新节点规格”增加。 扩容集群前需要检查集群安全组是否配置正确,要确保集群入方向安全组规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则。 进入“扩容节点”窗口,单击“确认”。 页面右上角弹出扩容节点提交成功提示框。 集群扩容过程说明如下: 扩容中:集群正在扩容时集群状态为“扩容中”。已提交的作业会继续执行,也可以提交新的作业,但不允许继续扩容和删除集群,也不建议重启集群和修改集群配置。 扩容成功:集群扩容成功后集群状态为“运行中”,计费会按照新增节点加上已有节点使用的资源计算。 扩容失败:集群扩容失败时集群状态为“运行中”。用户可以执行作业,也可以重新进行扩容操作。 扩容成功后,可以在集群详情的“节点管理”页签查看集群的节点信息。
  • 添加Task节点 MRS集群创建成功之后,如果需要规划Task类型的节点组进行弹性伸缩,可通过手动添加节点组的方式进行配置。 “自定义”类型集群添加Task节点操作步骤: 在集群详情页面,选择“节点管理”页签,单击“新增节点组”,进入“新增节点组”页面。 节点类型选择“Task”,“部署角色”参数默认选择“NM”部署NodeManager角色,则新增节点组为Task节点组,其他参数根据需要配置。 图1 添加Task节点组 非“自定义”类型集群添加Task节点操作步骤: 在集群详情页面,选择“节点管理”页签,单击“配置Task节点”,进入“配置Task节点”页面。 配置“节点类型”、“节点规格”、“节点数量”、“系统盘”,如开启“添加数据盘”后,还需要配置数据盘的存储类型、大小和数量。 单击“确定”。
  • 通过管理控制台配置队列容量策略 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击“租户管理”。 单击“资源分布策略”页签。 在“资源池”选择指定的资源池。 “可用资源配额”:表示每个资源池默认所有资源都可分配给队列。 在“资源分配”列表指定队列的“操作”列,单击“修改”。 在“修改资源分配”窗口设置任务队列在此资源池中的资源容量策略。 “资源容量 (%)”:表示当前租户计算资源使用的资源百分比。 “最大资源容量 (%)”:表示当前租户计算资源使用的最大资源百分比。 单击“确定”保存配置。
  • 操作场景 MRS集群提供Manager对集群进行监控、配置和管理,用户在集群安装后可使用admin用户登录Manager页面。 当前支持以下几种方式访问Manager,请根据实际情况进行选择: 通过弹性IP访问FusionInsight Manager:通过为集群绑定弹性公网IP的方式,访问MRS集群Manager界面及集群内托管的开源组件。该方式更加简便易操作,推荐使用该方式访问。 通过云专线访问FusionInsight Manager:云专线用于搭建用户本地数据中心与线上云VPC之间高速、低时延、稳定安全的专属连接通道,充分利用线上云服务优势的同时,继续使用现有的IT设施,实现灵活一体,可伸缩的混合计算环境。 操作前请确保云专线服务可用,并已打通本地数据中心到线上VPC的连接通道。云专线详情请参考什么是云专线。 弹性IP访问和云专线访问可以在MRS集群管理控制台上进行切换:登录MRS管理控制台,在待操作的MRS集群“概览”页面单击“集群管理页面”后的,在打开的页面中进行切换。 通过ECS访问FusionInsight Manager:通过与MRS集群在同一VPC内的ECS节点访问集群Manager界面。该方式操作较为复杂,推荐在不支持EIP功能的场景使用。 通过配置SSH隧道访问MRS集群Manager:用户和MRS集群处于不同的网络中,可以创建一个SSH隧道连接,使用户访问站点的数据请求发送到MRS集群并动态转发到对应的站点。
  • 通过ECS访问MRS集群Manager 进入MRS管理控制台。 在“现有集群”列表中,单击指定的集群名称。 记录集群的“可用区”、“虚拟私有云”、“安全组”。 在管理控制台首页服务列表中选择“弹性云服务器”,进入ECS管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。例如,选择一个标准镜像“Windows Server 2012 R2 Standard 64bit(40GB)”。 其他配置参数详细信息,请参见购买弹性云服务器。 如果ECS的安全组和Master节点的“默认安全组”不同,用户可以选择以下任一种方法修改配置: 将ECS的安全组修改为Master节点的默认安全组,请参见更改安全组。 在集群Master节点和Core节点的安全组添加两条安全组规则使ECS可以访问集群,“协议”需选择为“TCP”,“端口”需分别选择“28443”和“20009”。请参见创建安全组。 如果界面提示“添加安全组规则失败”,请检查安全组配额是否不足,请增加配额或删除不再使用的安全组规则。 在EIP管理控制台,申请一个弹性IP地址,并与ECS绑定。 具体请参见为弹性云服务器申请和绑定弹性公网IP。 登录弹性云服务器。 登录ECS需要Windows系统的账号、密码,弹性IP地址以及配置安全组规则。具体请参见Windows云服务器登录方式。 在Windows的远程桌面中,打开浏览器访问Manager。 Manager访问地址为https://OMS浮动IP地址:28443/web地址。访问时需要输入集群的用户名和密码,例如“admin”用户。 OMS浮动IP地址:远程登录Master2节点,执行“ifconfig”命令,系统回显中“eth0:wsom”表示OMS浮动IP地址,请记录“inet”的实际参数值。如果在Master2节点无法查询到OMS浮动IP地址,请切换到Master1节点查询并记录。如果只有一个Master节点时,直接在该Master节点查询并记录。 如果使用其他集群用户访问Manager,第一次访问时需要修改密码。新密码需要满足集群当前的用户密码复杂度策略。请咨询管理员。 默认情况下,在登录时输入5次错误密码将锁定用户,需等待5分钟自动解锁。 注销用户退出Manager时移动鼠标到右上角 ,然后单击“注销”。
  • 通过云专线访问MRS集群Manager 登录MRS管理控制台。 单击集群名称进入集群详情页。 在集群详情页面的“概览”页签,单击“集群管理页面”右侧的“前往 Manager”。 “访问方式”选择“专线访问”,并勾选操作影响。 浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。 单击“确定”,进入MRS Manager登录页面,用户名使用“admin”,密码为创建集群时设置的admin密码。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.5 发布时间 2020-05-27 解决的问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.5补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.2.2 发布时间 2021-05-18 解决的问题 MRS Manager 解决sudo提权漏洞 解决扩容刷新队列会导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡住问题 Hive中增加自研的接口 解决map.xml无法读取的问题 Hive har特性优化 解决ZK脏数据导致Yarn服务不可用问题 OBS包升级 JDK版本升级 解决Yarn的ResourceManager内存泄漏问题 增加对调用ECS getSecuritykey接口异常的监控 优化刷新临时AK/Sk流程 解决ResourceManager内存泄露问题 解决Hive union语句合并小文件报错问题 解决Hadoop的task任务报空间不足失败问题 解决hive作业成功无数据生成问题 补丁兼容关系 无。
  • 安装补丁的影响 安装MRS 1.9.2.2补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger、Presto以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.2.2补丁安装后,需要重启OMS服务。 使用root用户登录主备OMS节点,切换至omm用户,执行命令sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh重启OMS服务。 主备OMS节点都需要重启。 MRS 1.9.2.2补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。 平滑次数为1,当某个Topic在过载磁盘上的Partition数占比低于阈值(默认40%)时,告警恢复。 过载磁盘定义:磁盘分区的IO使用率大于80%的磁盘认为是过载磁盘。 例如: 某TopicA的Partition分布在三个Broker上,其中两个Broker上Partition所在磁盘分区的IO使用率大于80%。 那么,在过载磁盘上的Partition占比等于2/3,大于40%,触发告警。
  • 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,SlapdServer CPU使用率小于或等于阈值时,该告警恢复。当平滑次数大于1,SlapdServer CPU使用率小于或等于阈值的90%时,该告警恢复。
  • 创建集群时开启安全通信 登录MRS管理控制台。 单击“购买集群”,进入购买集群页面。 在购买集群页面,选择“快速购买”或“自定义购买”。 参考快速购买MRS集群或自定义购买MRS集群配置集群信息。 在“通信安全授权”栏,勾选通信安全授权。 图1 通信安全授权 单击“立即购买”创建集群。 当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。
  • 集群创建成功后关闭安全通信 登录MRS管理控制台。 在现有集群列表中,单击待关闭安全通信的集群名称。 系统跳转至该集群详情页面。 图2 通信安全授权 单击“通信安全授权”右侧的开关关闭授权,在弹出窗口单击“确定”。 关闭授权后将导致集群状态变更为“网络通道未授权”,集群部分功能不可用,请谨慎操作。 图3 关闭通信安全授权 若用户已开启敏感操作保护(详见 IAM 服务的敏感操作),则输入选择的对应验证方式获取的验证码进行进行验证,避免误操作带来的风险和损失。 图4 身份验证
共100000条