华为云用户手册

  • 查看云服务操作日志 登录 MRS 管理控制台。 单击“操作日志”,查看日志详情。 日志列表默认按时间顺序排列,时间最近的日志显示在最前端。 日志信息中的各字段说明如表1所示。 表1 日志说明 参数 参数说明 操作类型 记录执行的操作类型,包括: 集群操作 作业操作 数据操作 操作IP 记录执行操作的IP地址。 说明: 当MRS集群部署失败时,集群会被自动删除,并且自动删除集群的操作日志中不包含用户的“操作IP”信息。 用户 执行操作的用户。 操作内容 记录实际操作内容,不超过2048字符。 时间 记录操作的时间。对于已删除的集群,界面只显示6个月内的日志信息,若需要查看6个月之前的日志信息,请联系华为云支持人员。 企业项目 操作的集群所属的企业项目。
  • 查看MRS集群运行状态 登录MRS管理控制台。 选择“现有集群”,进入集群列表页面。 集群列表默认按创建时间顺序排列,集群列表参数说明如表1所示。 现有集群:包括除了“失败”和“已删除”状态以外的所有集群。 历史集群:仅包含“已删除”的集群,目前界面只显示6个月内创建且已删除的集群,若需要查看6个月以前删除的集群,请联系华为云支持人员。 失败任务管理:单击可查看“失败”状态的集群创建任务。 表1 集群列表参数 参数 参数说明 名称/ID 集群的名称,创建集群时设置。集群的ID是集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 :修改集群名称。 :复制集群ID。 集群版本 集群的版本号。 集群类型 显示创建集群的类型。 节点数 集群部署的节点个数,创建集群时设置。 状态 集群运行状态及变更状态信息,集群运行状态说明请参考表2。 创建集群进度包括: Verifying cluster parameters:校验集群参数中 Applying for cluster resources:申请集群资源中 Creating VMs:创建虚拟机中 Initializing VMs:初始化虚拟机中 Installing MRS Manager:安装MRS Manager中 Deploying the cluster:部署集群中 Cluster installation failed:集群安装失败 扩容集群进度包括: Preparing for cluster expansion:准备扩容中 Creating VM:创建虚拟机中 Initializing VM:初始化虚拟机中 Adding node to the cluster:节点加入集群中 Cluster expansion failed:集群扩容失败 缩容集群进度包括: Preparing for cluster shrink:正在准备缩容 Decommissioning instance:实例退服中 Deleting VM:删除虚拟机中 Deleting node from the cluster:从集群删除节点中 Cluster shrink failed:集群缩容失败 集群安装、扩容、缩容失败,会显示失败的原因,详情请参见表6。 计费类型 目前MRS商用收费基本要素为集群中的弹性云服务器。 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为1年。 按需计费:节点按实际使用时长计费,计费周期为一小时。 计费类型下方显示购买的集群启动成功的时间,即计费开始时间。 创建时间 集群节点创建成功时间。仅“历史集群”会显示此参数。 删除时间 集群节点计费停止时间,也是集群节点开始删除时间。仅“历史集群”会显示此参数。 可用区 集群工作区域下的可用区,创建集群时设置。 企业项目 集群所属的企业项目。 表2 MRS集群运行状态说明 状态 说明 启动中 集群正在创建,则其状态为“启动中”。 运行中 集群创建成功且运行正常,则其状态为“运行中”。 扩容中 集群Master节点、Core节点或者Task节点正在扩容,则其状态为“扩容中”。 缩容中 当对集群节点进行缩容、弹性缩容、包周期集群退订节点、变更OS和重装OS的操作时,被变更的集群节点正在删除,则其状态为“缩容中”。 异常 集群中部分组件状态异常,导致集群异常,则其状态为“异常”。 删除中 在集群现有列表单击“删除”按钮并确认后,按需购买的集群节点正在删除中,则集群状态为“删除中”。 冻结 包年/包月资源宽限期到期未续费、按需资源扣费失败且在宽限期到期前未充值,系统会冻结这些资源,其状态为“冻结”。本文提及的冻结一般指欠费冻结,其他冻结场景请参见资源冻结的类型有哪些?。 说明: 冻结期间集群不可用且关闭集群中所有云主机,解冻后集群自动恢复为“运行中”状态。如果用户没有续费,冻结期限到期后集群会被删除,状态更新为“已删除” 故障节点修复中 集群中故障的节点正在修复,则其状态为“故障节点修复中”。
  • 更换HA证书(MRS 2.x及之前版本) 登录主管理节点。 执行以下命令切换用户: sudo su - root su - omm 执行以下命令在主管理节点“${ OMS _RUN_PATH}/workspace0/ha/local/cert”目录生成“root-ca.crt”和“root-ca.pem”: sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=country --state=state --city=city --company=company --organize=organize --common-name=commonname --email=管理员邮箱 --password=password 命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 例如,执行以下命令:sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=gd --city=sz --company=hw --organize=IT --common-name=HADOOP.COM --email=abc@example.com --password=xxx 提示以下信息表示命令执行成功: Generate root-ca pair success. 在主管理节点以“omm”用户执行以下命令,复制“root-ca.crt”和“root-ca.pem”到“${BIGDATA_HOME}/om-0.0.1/security/certHA”目录。 cp -arp ${OMS_RUN_PATH}/workspace0/ha/local/cert/root-ca.* ${BIGDATA_HOME}/om-0.0.1/security/certHA 使用“omm”用户将主管理节点生成的“root-ca.crt”和“root-ca.pem”复制到备管理节点“${BIGDATA_HOME}/om-0.0.1/security/certHA”目录。 执行以下命令,生成HA用户证书并自动替换。 sh ${BIGDATA_HOME}/om-0.0.1/sbin/replacehaSSLCert.sh 根据提示信息输入password,并按回车键确认。 Please input ha ssl cert password: 界面提示以下信息表示HA用户证书替换成功: [INFO] Succeed to replace ha ssl cert. 执行以下命令,重启OMS。 sh ${BIGDATA_HOME}/om-0.0.1/sbin/restart-oms.sh 界面提示以下信息: start HA successfully. 登录备管理节点并切换到omm用户,重复6~7。 执行sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh,查看管理节点的“HAAllResOK”是否为“Normal”,并可以重新访问MRS Manager表示操作成功。
  • 更换HA证书(MRS 3.x及之后版本) 以omm用户登录主管理节点。 选择证书和密钥文件的生成方式: 若由证书中心生成,请在主备管理节点“${OMS_RUN_PATH}/workspace0/ha/local/cert”目录保存申请的证书文件与密钥文件。 若获取的证书文件格式不是“.crt”,密钥文件格式不是“.pem”,执行以下命令修改: mv 证书名称.证书格式 root-ca.crt mv 密钥名称.密钥格式 root-ca.pem 例如,将证书文件命名为“root-ca.crt”,密钥文件命名为“root-ca.pem”: mv server.cer root-ca.crt mv server_key.key root-ca.pem 若由集群用户生成,执行以下命令在主管理节点“${OMS_RUN_PATH}/workspace0/ha/local/cert”目录生成“root-ca.crt”和“root-ca.pem”: sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=state --city=city --company=company --organize=organize --common-name=commonname --email=集群用户邮箱 生成的证书文件有效期为10年,在系统证书文件即将过期时,系统将产生告警“ALM-12055 证书文件即将过期”。 例如,执行以下命令: sh ${OMS_RUN_PATH}/workspace/ha/module/hacom/script/gen-cert.sh --root-ca --country=CN --state=guangdong --city=shenzhen --company=huawei --organize=IT --common-name=HADOOP.COM --email=abc@example.com 根据提示信息输入password,并按回车键确认。 Enter pass phrase for /opt/huawei/Bigdata/om-server/OMS/workspace/ha/local/cert/root-ca.pem: 提示以下信息表示命令执行成功: Generate root-ca pair success. 在主管理节点以omm用户执行以下命令,复制“root-ca.crt”和“root-ca.pem”到“${BIGDATA_HOME}/om-server/om/security/certHA”目录。 cp -arp ${OMS_RUN_PATH}/workspace0/ha/local/cert/root-ca.* ${BIGDATA_HOME}/om-server/om/security/certHA 使用omm用户将主管理节点生成的“root-ca.crt”和“root-ca.pem”复制到备管理节点“${BIGDATA_HOME}/om-server/om/security/certHA”目录。 scp ${OMS_RUN_PATH}/workspace0/ha/local/cert/root-ca.* omm@备管理节点IP:${BIGDATA_HOME}/om-server/om/security/certHA 执行以下命令,生成HA用户证书并自动替换。 sh ${BIGDATA_HOME}/om-server/om/sbin/replacehaSSLCert.sh 根据提示信息输入password,并按回车键确认。 Please input ha ssl cert password: 界面提示以下信息表示HA用户证书替换成功: [INFO] Succeed to replace ha ssl cert. 如果用户需要更新HA密码加密套件,可以带-u参数。 执行以下命令,重启OMS。 sh ${BIGDATA_HOME}/om-server/om/sbin/restart-oms.sh 界面提示以下信息: start HA successfully. 以omm用户通过备管理节点IP登录备管理节点,重复5~6。 执行sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh,查看管理节点的“HAAllResOK”是否为“Normal”,并可以重新登录 FusionInsight Manager表示操作成功。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.5 发布时间 2020-03-21 解决的问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.5补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 1.9.0.5补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.5补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 查看审计日志(MRS 3.x及之后版本) 登录FusionInsight Manager。 单击“审计”,界面展示如图1所示FusionInsight Manager审计信息,包括操作类型、安全级别、开始时间、结束时间、用户、主机、服务、实例、操作结果等。 图1 审计信息列表 用户可以在“所有安全级别”中选择“高危”、“危险”、“一般”和“提示”级别的审计日志。 在高级搜索中,用户可设置过滤条件来查询审计日志。 在“操作类型”中,用户可根据用户管理、集群、服务、健康检查等来指定操作类型查询对应的审计日志。 在“服务”中,用户可选择相应的服务来查询审计日志。 在服务中选择“--”,表示除服务以外其他类型的审计日志。 在“操作结果”中,用户可选择所有、成功、失败和未知来查询审计日志。 单击手动刷新当前页面,也可在修改审计表格显示的列。 单击“导出全部”,可一次性导出所有审计信息,可导出“TXT”或者“ CS V”格式。
  • 查看审计日志(MRS 3.x之前版本) 在MRS Manager,单击“审计管理”,可直接查看默认的审计日志。 若审计日志的审计内容长度大于256字符,请单击审计日志展开按钮展开审计详情。 默认以“产生时间”列按降序排列,单击操作类型、安全级别、产生时间、用户、主机、服务、实例或操作结果可修改排列方式。 支持在“安全级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 导出的审计日志文件,包含以下信息列: “编号”:表示MRS Manager已生成的审计日志数量,每增加一条审计日志则编号自动加1。 “操作类型”:表示用户操作的操作类型,分为“告警”、“审计日志”、“备份恢复”、“集群”、“采集日志”、“主机”、“服务”、“多租户”和“用户管理”九种场景,其中“用户管理”仅在启用了Kerberos认证的集群中支持。每个场景中包含不同操作类型,例如“告警”中包含“导出告警”,“集群”中包含“启动集群”,“多租户”包含“增加租户”等。 “安全级别”:表示每条审计日志的安全级别,包含“高危”、“危险”、“一般”和“提示”四种。 “开始时间”:表示用户操作开始的时间,且时间为CET或 CES T时间。 “结束时间”:表示用户操作结束的时间,且时间为CET或CEST时间。 “用户IP”:表示用户操作时所使用的IP地址。 “用户”:表示执行操作的用户名。 “主机”:表示用户操作发生在集群的哪个节点。如果操作不涉及节点则不保存信息。 “服务”:表示用户操作发生在集群的哪个服务。如果操作不涉及服务则不保存信息。 “实例”:表示用户操作发生在集群的哪个角色实例。如果操作不涉及角色实例则不保存信息。 “操作结果”:表示用户操作的结果,包含“成功”、“失败”和“未知”。 “内容”:表示用户操作的具体执行信息。 单击“高级搜索”,在审计日志搜索区域中,设置查询条件,单击“搜索”,查看指定类型的审计日志。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 在审计日志列表中,单击“导出全部”,导出所有的日志。 在审计日志列表中,勾选日志信息前的复选框,单击“导出”,导出指定日志。
  • 告警解释 MRS 2.x及以前版本: 对于HDD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统每3秒执行一次iostat命令,在30秒内连续10周期svctm值超过1000ms。 系统每3秒执行一次iostat命令,在300秒内有超过60%的IO超过20ms。 当系统连续15分钟不满足以上所有条件时,告警自动清除。 MRS 1.9.3.10及之后的补丁的版本: 对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次采集到的svctm时延达到150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 相关参数获取方法请参考参考信息。
  • 参考信息 相关参数获取方法如下: MRS 2.x及以前版本: 当前慢盘故障告警的检查原理为: 在Linux平台上判断IO是否存在问题,输入命令iostat -x -t 1,观察svctm的值(如图所示红色框中的部分)。 svctm值表示该磁盘IO服务时间。 MRS 1.9.3.10及之后的补丁版本: svctm的获取方法: svctm = (tot_ticks_new - tot_ticks_old) / (rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old) 当检测周期粒度为30秒时,如果rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0,则svctm = 0。 当检测周期粒度为300秒时,在rd_ios_new + wr_ios_new - rd_ios_old - wr_ios_old = 0的情况下,如果tot_ticks_new - tot_ticks_old = 0则svctm = 0,否则svctm值为无穷大。 参数获取如下: 系统每3秒执行一次cat /proc/diskstats命令采集数据。例如: 连续两次采集的数据中: 第一次采集的数据中,第4列的数字是“rd_ios_old”,第8列的数字是“wr_ios_old”,第13列的数字是“tot_ticks_old”。 第二次采集的数据中,第4列的数字是“rd_ios_new”,第8列的数字是“wr_ios_new”,第13列的数字是“tot_ticks_new”。 则上图中svctm值为: (19571460 - 19569526) / (1101553 + 28747977 - 1101553 - 28744856) = 0.6197
  • 对系统的影响 MRS 2.x及之前版本,修改密码需要重启全部服务,服务在重启时无法访问。 MRS 3.1.0版本集群: 修改LdapServer服务的用户密码为高危操作,需要重启KrbServer和LdapServer服务。重启KrbServer可能会导致集群中的节点短时间内出现执行id命令查询不到用户的现象,请谨慎执行。 修改LDAP用户“cn=pg_search_dn,ou=Users,dc=hadoop,dc=com”的密码后,可能会导致该用户在组件LDAP上被锁定。因此,建议修改密码后对该用户进行解锁,解锁方法请参见解锁MRS集群LDAP管理账户章节。
  • 查看历史集群信息 登录MRS管理控制台。 选择“历史集群”,可查看已删除的历史集群信息。 单击集群名称,进入集群基本信息页面,可查看集群的配置信息、部署的节点信息、弹性伸缩信息、组件信息、作业信息、引导操作信息和标签信息。 表1 集群基本信息 参数 参数说明 集群名称 集群的名称,创建集群时设置。 集群状态 集群状态信息。 付费类型 显示创建集群时的付费类型,目前支持“按需计费”和“包年/包月”。 集群版本 集群的版本信息。 集群类型 创建集群时的集群类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 订单号 显示创建集群的订单号。该参数仅在“付费类型”为“包年/包月”时显示。 可用区 集群工作区域下的可用区,创建集群时设置。 默认生效子网 子网信息,创建集群时所选。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 OBS权限控制 MRS用户与OBS权限的映射关系。 数据连接 集群关联的数据连接类型。 委托 集群绑定或修改的委托。 密钥对 密钥对名称,创建集群时设置。 如果创建集群时设置的登录方式为密码,则不显示。 Keberos认证 登录Manager管理页面时是否启用Kerberos认证。 说明: Kerberos认证模式不支持手动修改,集群创建成功后将无法开启和关闭此功能,需要在创建MRS服务集群的时候选择开启或者关闭Kerberos服务,建议重新创建集群。 企业项目 集群所属的企业项目,仅现有集群列表支持单击企业项目名称进入对应项目的企业项目管理页面。 安全组 集群的安全组名称。 流式Core节点LVM管理 流式Core节点的LVM管理功能是否开启。 数据盘密钥名称 用于加密数据盘的密钥名称。如需对已使用的密钥进行管理,请登录密钥管理控制台进行操作。 数据盘密钥ID 用于加密数据盘的密钥ID。 组件版本 集群安装各组件的版本信息。 委托 通过绑定委托,ECS或BMS云服务将有权限来管理您的部分资源。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.9 发布时间 2020-08-21 解决的问题 MRS 2.1.0.9 修复问题列表: MRS Manager 解决MRS Executor内存溢出问题 优化扩容流程 解决sparkSql包含空格的情况拼接sql错误问题 解决偶现HiveSql作业提交失败问题 优化keytab文件下载的权限控制 大数据组件 解决Presto角色名称包含大写字母,权限模型未生效问题 解决Hive删除分区慢的问题 解决Spark长时间运行Token过期问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,ECS接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.9补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
  • 安装补丁的影响 安装MRS 1.9.3.1补丁期间会重启MRS Manager,滚动重启Hadoop、HDFS、Hive、Spark及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.3.1补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.3.1 发布时间 2020-09-04 解决的问题 MRS Manager 解决自定义集群缩容Task节点失败问题 MRS大数据组件 解决Hive和Spark路径下adapter-hadoop-wrapper-file-system包版本错误问题 解决HBase服务Manager上保存多命名空间,后台不生效问题 新增HDFSWrapper支持AbstractFileSystem 补丁兼容关系 无。
  • 告警解释 系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围(90%),当检测到百分比指标低于阈值范围产生该告警。在该告警的定位信息可查看产生该告警的主机名,该主机IP也是HiveServer节点IP。 当系统在一个检测周期检测到该指标高于阈值时,恢复告警。
  • 处理步骤 登录MRS集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”和“PartitionName”,其中“HostName”为故障告警的节点,“PartitionName”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。
  • 查看MRS集群基本信息 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页面选择“概览”,即可查看集群详情概览信息参数说明。 表1 MRS集群基本信息 参数 参数说明 集群名称 集群的名称,创建集群时设置。单击可对集群名称进行修改。 修改集群名称后仅MRS管理控制台界面显示的集群名称修改,MRS Manager中集群名称不会同步修改。 集群状态 集群状态信息,请参见表2。 集群版本 MRS版本信息。 集群类型 支持以下集群类型: 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。 自定义:全量自定义组件组合的MRS集群,MRS 3.x及之后版本支持此类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 可用区 集群工作区域下的可用区,创建集群时设置。 Kerberos认证 登录Manager管理页面时是否启用Kerberos认证。 企业项目 集群所属的企业项目,仅现有集群列表支持单击企业项目名称进入对应项目的企业项目管理页面。 表2 MRS集群网络信息 参数 参数说明 默认生效子网 子网信息,创建集群时所选。 当子网IP不足时,单击“切换子网”切换到当前集群相同VPC下的其他子网,实现可用子网IP的扩充。切换子网不会影响当前已有节点的IP地址和子网。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 弹性公网IP 通过将弹性公网IP与MRS集群绑定,实现使用弹性公网IP访问Manager的目的。当确认不再需要绑定EIP时,单击“解绑”将解绑与该集群绑定的可信任弹性公网IP,解绑后将无法从该IP访问MRS Manager页面。 说明: 在为集群Manager绑定了EIP后,通常不建议用户进行解绑,以免影响其他用户正常访问集群的Manager管理界面。 安全组 集群的安全组名称。 表3 MRS集群运维管理 参数 参数说明 集群管理页面 Manager页面入口,具体操作请参见访问MRS集群Manager。 IAM 用户同步 可以将IAM侧用户(包含联邦用户)信息同步至MRS集群,用于集群管理。具体请参见IAM用户同步MRS集群说明。 说明: 集群详情页的“组件管理”、“租户管理”和“备份恢复”页签需要同步用户后方可使用。MRS 3.x版本集群同步后可使用“组件管理”。 登录用户为联邦用户时,仅支持同步当前已登录的用户信息。 数据连接 单击“单击管理”,查看集群关联的数据连接类型,具体请参考创建数据连接。 委托 单击“管理委托”,为集群绑定或修改委托。 通过绑定委托,您可以将部分资源共享给ECS或BMS云服务来管理,例如通过配置ECS委托可自动获取AK/SK访问OBS,具体请参见配置MRS集群通过IAM委托对接OBS。 MRS_ECS_DEFAULT_AGENCY委托拥有 对象存储服务 的OBSOperateAccess权限和在集群所在区域拥有CESFullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。 OBS权限控制 单击“单击管理”,修改MRS用户与OBS权限的映射关系,具体请参考配置MRS集群用户的OBS的细粒度访问权限。 日志记录 用于收集集群创建失败及扩缩容失败的日志。 通讯安全授权 展示安全授权状态,可关闭和开启安全授权。关闭安全授权属于高危操作,请谨慎处理。详细信息请参考配置MRS集群安全通信授权。 表4 MRS集群计费信息 参数 参数说明 付费类型 显示创建集群时的付费类型,目前支持“按需计费”和“包年/包月”。 最近交易订单 显示购买集群的订单号。该参数仅在“付费类型”为“包年/包月”时显示。 创建时间 显示集群创建时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期时间 显示集群到期时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期处理策略 到期进入宽限期。该参数仅在“付费类型”为“包年/包月”时显示。
  • 转换MRS按需集群为包周期集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要转包周期的集群对应的“操作”列中,单击“转包周期”。 确定转包周期集群信息,并单击“是”。 进入用户中心,选择续费时长后单击“提交”,提交订单。 订单提交完成后,集群状态由“运行中”更新为“转包周期中”。 订单支付成功后,集群开始进行转包周期流程,待集群转包周期成功后,集群状态更新为“运行中”。 转包周期后集群原有Task节点计费类型保持按需计费,集群在转包周期过程中已配置的弹性伸缩规则不触发新任务,请选择恰当的时间进行该操作。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.6 发布时间 2020-05-20 解决的问题 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.6补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 1.9.0.6补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.6补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 解决的问题 补丁号:MRS 1.9.0.10 发布时间:2023-01-17 修复问题列表: MRS大数据组件 OBSA支持流控重试 补丁号:MRS 1.9.0.9 发布时间:2022-08-10 修复问题列表: MRS大数据组件 superior调度器算法优化 补丁号:MRS 1.9.0.8 发布时间:2021-02-20 修复问题列表: MRS大数据组件 增加调用ECS getSecuritykey接口异常的监控 优化临时AK/Sk流程 解决ResourceManager内存泄露问题 MRS 1.9.0.7 修复问题列表: MRS Manager 解决扩容刷新队列导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡顿问题 解决Hadoop的task任务报空间不足失败问题 Hive中增加自研的接口 解决map.xml无法读取的问题 解决ZK脏数据导致Yarn服务不可用问题 解决Yarn的ResourceManager内存泄漏问题 Hive har特性优化 OBS包升级 JDK版本升级 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.10补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 1.9.0.10补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Presto以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.10补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。 (可选)通过委托获取临时AKSK访问OBS场景下,通过参数“fs.obs.auth.node-cache-short-circuit.enable”的不同配置控制是否允许访问ECS元数据接口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,30分钟内不能再次请求元数据接口。为防止触发流控,MRS实现了节点级别跨进程的缓存服务meta,用于缓存临时AKSK。 使用场景:适用于通过委托适用临时aksk访问OBS的Spark,Hadoop等Yarn作业。配置在客户端core-site.xml中。 默认配置为true,MRS集群上的Yarn应用进程首先从节点级缓存服务meta中获取临时aksk。若meta故障,则从ecs元数据接口获取临时AKSK。 如果希望meta故障时也不直接访问ECS元数据接口,以免触发流控导致节点被加入黑名单,则将参数配置为false。
  • 安全模式 安全模式的集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和 域名 。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证。认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,命令为kinit 用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。
  • 普通模式 普通模式的集群不同组件使用原生开源的认证机制,不支持kinit认证命令。FusionInsight Manager(含DBService、KrbServer和LdapServer)使用的认证方式为用户名密码方式。组件使用的认证机制如表1所示。 表1 组件认证方式一览表 服务 认证方式 IoTDB simple认证 CDL 无认证 ClickHouse simple认证 Flume 无认证 HBase WebUI:无认证 客户端:simple认证 HDFS WebUI:无认证 客户端:simple认证 HetuEngine WebUI:无认证 客户端:无认证 Hive simple认证 Hue 用户名密码认证 Kafka 无认证 Loader WebUI:用户名密码认证 客户端:无认证 Mapreduce WebUI:无认证 客户端:无认证 Oozie WebUI:用户名密码认证 客户端:simple认证 Spark2x WebUI:无认证 客户端:simple认证 Storm 无认证 Yarn WebUI:无认证 客户端:simple认证 ZooKeeper simple认证 认证方式解释如下: “simple认证”:在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”或“omm”)自动进行认证,管理员或业务用户不显式感知认证,不需要kinit完成认证过程。 “用户名密码认证”:使用集群中“人机”用户的用户名与密码进行认证。 “无认证”:默认任意的用户都可以访问服务端。
  • 解锁MRS集群LDAP管理账户 管理员在LDAP用户和管理账户被锁定时,需要在管理节点解锁集群LDAP用户“cn=pg_search_dn,ou=Users,dc=hadoop,dc=com”以及LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”和“cn=krbadmin,ou=Users,dc=hadoop,dc=com”。 Ldap用户或管理账户连续使用错误密码操作Ldap次数大于5次时,会造成LDAP用户或管理账户被锁定。用户被锁定之后,5分钟后会自动解锁。 该操作仅适用于MRS 3.x及之后版本。 以omm用户登录主管理节点。 执行以下命令,切换到目录: cd ${BIGDATA_HOME}/om-server/om/ldapserver/ldapserver/local/script 执行以下命令,解锁LDAP用户或管理账户: ./ldapserver_unlockUsers.sh USER_NAME 其中,USER_NAME表示将要解锁的用户名称。 例如,解锁LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”的方法如下: ./ldapserver_unlockUsers.sh krbkdc 运行脚本之后,在ROOT_DN_PASSWORD之后输入krbkdc用户密码,显示如下结果,说明解锁成功: Unlock user krbkdc successfully. 父主题: 解锁MRS集群用户
  • 修改Manager日志级别 以omm用户登录主管理节点。 执行以下命令,切换路径。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,修改日志级别。 ./setLogLevel.sh 日志级别参数 日志级别参数如下,优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少: “DEFAULT”:设置后恢复到默认日志级别。 “FATAL”:严重错误日志级别,设置后日志只会打印输出“FATAL”信息。 “ERROR”:错误日志级别,设置后日志打印输出“ERROR”和“FATAL”信息。 “WARN”:警告日志级别,设置后日志打印输出“WARN”、“ERROR”和“FATAL”信息。 “INFO”(默认):提示信息日志级别,设置后日志打印输出“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “DEBUG”:调试日志级别,设置后日志打印输出“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “TRACE”:跟踪日志级别,设置后日志打印输出“TRACE”、“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 由于开源中定义的不同,组件的日志级别定义略有差异。 验证日志级别设置已生效,请下载日志并查看。请参见下载MRS集群日志(MRS 3.x及之后版本)。
  • 配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS 3.x及以后版本。 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed. 父主题: 查看与配置MRS告警事件
  • 告警解释 ClickHouse各节点之间,分布式表对应的本地表中,若存在数据倾斜,系统产生此告警。当检测到数据均衡时,告警自动清除。 数据倾斜检测方法: 当参数“min_table_check_data_bytes”值为“0”时,不启用数据倾斜检查。 当参数“min_table_check_data_bytes”值为大于“0”时,启用数据倾斜检查。 启用数据检查后,若表数据量小于min_table_check_data_bytes,则不会因为存在倾斜而上报告警。当数据量大于min_table_check_data_bytes,且节点之间某张表数据量相差大于min_table_data_varies_rate中设置的百分比时,则存在数据倾斜且上报告警。
  • MRS 1.9.3.9补丁说明 补丁号 MRS 1.9.3.9 发布时间 2023-07-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.9补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 支持D系列磁盘热插拔 支持HDFS单副本检测能力 补丁兼容关系 MRS 1.9.3.9补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
共100000条