华为云用户手册

  • 告警解释 系统每30秒周期性检测执行的HiveQL成功百分比,HiveQL成功百分比由一个周期内Hive执行成功的HiveQL数/Hive执行HiveQL总数计算得到。该指标可在Hive服务监控界面查看。执行的HiveQL成功百分比指标默认提供一个阈值范围(90%),当检测到百分比指标低于阈值范围产生该告警。在该告警的定位信息可查看产生该告警的主机名,该主机IP也是HiveServer节点IP。 当系统在一个检测周期检测到该指标高于阈值时,恢复告警。
  • 处理步骤 登录 MRS 集群详情页面,选择“告警管理”。 在实时告警列表中,单击此告警所在行。 在“告警详情”区域,从“定位信息”中获取“HostName”和“PartitionName”,其中“HostName”为故障告警的节点,“PartitionName”为故障磁盘的分区。 联系硬件工程师确认为磁盘硬件故障之后,将服务器上故障磁盘在线拔出。 拔出磁盘后系统会上报“ALM-12014 分区丢失”告警,参考ALM-12014 设备分区丢失(2.x及以前版本)进行处理,处理完成后,本告警即可自动消除。
  • 查看MRS集群基本信息 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页面选择“概览”,即可查看集群详情概览信息参数说明。 表1 MRS集群基本信息 参数 参数说明 集群名称 集群的名称,创建集群时设置。单击可对集群名称进行修改。 修改集群名称后仅MRS管理控制台界面显示的集群名称修改,MRS Manager中集群名称不会同步修改。 集群状态 集群状态信息,请参见表2。 集群版本 MRS版本信息。 集群类型 支持以下集群类型: 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。 流式集群:用来做流处理任务,提供的是流式处理组件。 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。 自定义:全量自定义组件组合的MRS集群,MRS 3.x及之后版本支持此类型。 集群ID 集群的唯一标识,创建集群时系统自动赋值,不需要用户设置。 创建时间 显示集群创建的时间。 可用区 集群工作区域下的可用区,创建集群时设置。 Kerberos认证 登录Manager管理页面时是否启用Kerberos认证。 企业项目 集群所属的企业项目,仅现有集群列表支持单击企业项目名称进入对应项目的企业项目管理页面。 表2 MRS集群网络信息 参数 参数说明 默认生效子网 子网信息,创建集群时所选。 当子网IP不足时,单击“切换子网”切换到当前集群相同VPC下的其他子网,实现可用子网IP的扩充。切换子网不会影响当前已有节点的IP地址和子网。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 弹性公网IP 通过将弹性公网IP与MRS集群绑定,实现使用弹性公网IP访问Manager的目的。当确认不再需要绑定EIP时,单击“解绑”将解绑与该集群绑定的可信任弹性公网IP,解绑后将无法从该IP访问MRS Manager页面。 说明: 在为集群Manager绑定了EIP后,通常不建议用户进行解绑,以免影响其他用户正常访问集群的Manager管理界面。 安全组 集群的安全组名称。 表3 MRS集群运维管理 参数 参数说明 集群管理页面 Manager页面入口,具体操作请参见访问MRS集群Manager。 IAM 用户同步 可以将IAM侧用户(包含联邦用户)信息同步至MRS集群,用于集群管理。具体请参见IAM用户同步MRS集群说明。 说明: 集群详情页的“组件管理”、“租户管理”和“备份恢复”页签需要同步用户后方可使用。MRS 3.x版本集群同步后可使用“组件管理”。 登录用户为联邦用户时,仅支持同步当前已登录的用户信息。 数据连接 单击“单击管理”,查看集群关联的数据连接类型,具体请参考创建数据连接。 委托 单击“管理委托”,为集群绑定或修改委托。 通过绑定委托,您可以将部分资源共享给E CS 或BMS云服务来管理,例如通过配置ECS委托可自动获取AK/SK访问OBS,具体请参见配置MRS集群通过IAM委托对接OBS。 MRS_ECS_DEFAULT_AGENCY委托拥有 对象存储服务 的OBSOperateAccess权限和在集群所在区域拥有 CES FullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。 OBS权限控制 单击“单击管理”,修改MRS用户与OBS权限的映射关系,具体请参考配置MRS集群用户的OBS的细粒度访问权限。 日志记录 用于收集集群创建失败及扩缩容失败的日志。 通讯安全授权 展示安全授权状态,可关闭和开启安全授权。关闭安全授权属于高危操作,请谨慎处理。详细信息请参考配置MRS集群安全通信授权。 表4 MRS集群计费信息 参数 参数说明 付费类型 显示创建集群时的付费类型,目前支持“按需计费”和“包年/包月”。 最近交易订单 显示购买集群的订单号。该参数仅在“付费类型”为“包年/包月”时显示。 创建时间 显示集群创建时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期时间 显示集群到期时间。该参数仅在“付费类型”为“包年/包月”时显示。 到期处理策略 到期进入宽限期。该参数仅在“付费类型”为“包年/包月”时显示。
  • 转换MRS按需集群为包周期集群 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要转包周期的集群对应的“操作”列中,单击“转包周期”。 确定转包周期集群信息,并单击“是”。 进入用户中心,选择续费时长后单击“提交”,提交订单。 订单提交完成后,集群状态由“运行中”更新为“转包周期中”。 订单支付成功后,集群开始进行转包周期流程,待集群转包周期成功后,集群状态更新为“运行中”。 转包周期后集群原有Task节点计费类型保持按需计费,集群在转包周期过程中已配置的弹性伸缩规则不触发新任务,请选择恰当的时间进行该操作。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.6 发布时间 2020-05-20 解决的问题 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.6补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 1.9.0.6补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.6补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 解决的问题 补丁号:MRS 1.9.0.10 发布时间:2023-01-17 修复问题列表: MRS大数据组件 OBSA支持流控重试 补丁号:MRS 1.9.0.9 发布时间:2022-08-10 修复问题列表: MRS大数据组件 superior调度器算法优化 补丁号:MRS 1.9.0.8 发布时间:2021-02-20 修复问题列表: MRS大数据组件 增加调用ECS getSecuritykey接口异常的监控 优化临时AK/Sk流程 解决ResourceManager内存泄露问题 MRS 1.9.0.7 修复问题列表: MRS Manager 解决扩容刷新队列导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡顿问题 解决Hadoop的task任务报空间不足失败问题 Hive中增加自研的接口 解决map.xml无法读取的问题 解决ZK脏数据导致Yarn服务不可用问题 解决Yarn的ResourceManager内存泄漏问题 Hive har特性优化 OBS包升级 JDK版本升级 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.10补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 安装补丁的影响 安装MRS 1.9.0.10补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Presto以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.10补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。 (可选)通过委托获取临时AKSK访问OBS场景下,通过参数“fs.obs.auth.node-cache-short-circuit.enable”的不同配置控制是否允许访问ECS元数据接口,从而控制是否允许触发ECS流控。 MRS集群支持通过委托获取临时AKSK访问OBS。临时AKSK通过ECS元数据接口获取。ECS元数据接口有单机器5分钟140次的流控阈值,触发流控后机器被加入黑名单,30分钟内不能再次请求元数据接口。为防止触发流控,MRS实现了节点级别跨进程的缓存服务meta,用于缓存临时AKSK。 使用场景:适用于通过委托适用临时aksk访问OBS的Spark,Hadoop等Yarn作业。配置在客户端core-site.xml中。 默认配置为true,MRS集群上的Yarn应用进程首先从节点级缓存服务meta中获取临时aksk。若meta故障,则从ecs元数据接口获取临时AKSK。 如果希望meta故障时也不直接访问ECS元数据接口,以免触发流控导致节点被加入黑名单,则将参数配置为false。
  • 禁用系统创建的路由信息 以omm用户登录到集群主管理节点。执行以下命令,禁用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh disable Deactivating Route. Route operation (disable) successful. 执行以下命令,查看运行结果。 ip rule list 0:from all lookup local 32766:from all lookup main 32767:from all lookup default 执行以下命令,输入root用户密码,切换到root用户下。 su - root 分别执行以下命令,手动创建新的WS浮动IP路由信息。 ip route add WS浮动IP网段号/WS浮动IP子网掩码 scope link src WS浮动IP dev WS浮动IP对应网卡 table om_rt ip route add default via WS浮动IP网关 dev WS浮动IP对应网卡 table om_rt ip rule add from WS浮动IP table om_rt 例如: ip route add 192.168.0.0/255.255.255.0 scope link src 192.168.0.117 dev eth0:ws table om_rt ip route add default via 192.168.0.254 dev eth0:ws table om_rt ip rule add from 192.168.0.117 table om_rt 当前网络的IP地址模式为IPv6时,应执行ip -6 route add命令。 分别执行以下命令,手动创建新的ntp服务路由信息。未配置外部NTP时钟源时,跳过此步骤。 ip route add default via NtpIP网关 dev 本机IP对应网卡 table ntp_rt ip rule add to ntpIP table ntp_rt 本机IP对应网卡是指可与NTP服务器所在网段互通的网卡。 例如: ip route add default via 10.10.100.254 dev eth0 table ntp_rt ip rule add to 10.10.100.100 table ntp_rt 执行以下命令,查看运行结果。 如下例,如产生路由表名为“om_rt”和“ntp_rt”的路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息 32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 启用系统创建的路由信息 以omm用户登录到主管理节点。 执行以下命令,启用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh enable Activating Route. Route operation (enable) successful. 执行以下命令,查看运行结果。 如下例,如产生路由表名为“ntp_rt”和“om_rt”的两条路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息 32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 安全模式 安全模式的集群统一使用Kerberos认证协议进行安全认证。Kerberos协议支持客户端与服务端进行相互认证,提高了安全性,可有效消除使用网络发送用户凭据进行模拟认证的安全风险。集群中由KrbServer服务提供Kerberos认证支持。 Kerberos用户对象 Kerberos协议中,每个用户对象即一个principal。一个完整的用户对象包含两个部分信息:用户名和 域名 。在运维管理或应用开发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证。认证有效时间默认为24小时。 密码认证:通过输入用户正确的密码完成身份认证。主要在运维管理场景中使用“人机”用户进行认证,命令为kinit 用户名。 keytab认证:keytab文件包含了用户principal和用户凭据的加密信息。使用keytab文件认证时,系统自动使用加密的凭据信息进行认证无需输入用户密码。主要在组件应用开发场景中使用“机机”用户进行认证。keytab文件也支持在kinit命令中使用。
  • 普通模式 普通模式的集群不同组件使用原生开源的认证机制,不支持kinit认证命令。 FusionInsight Manager(含DBService、KrbServer和LdapServer)使用的认证方式为用户名密码方式。组件使用的认证机制如表1所示。 表1 组件认证方式一览表 服务 认证方式 IoTDB simple认证 CDL 无认证 ClickHouse simple认证 Flume 无认证 HBase WebUI:无认证 客户端:simple认证 HDFS WebUI:无认证 客户端:simple认证 HetuEngine WebUI:无认证 客户端:无认证 Hive simple认证 Hue 用户名密码认证 Kafka 无认证 Loader WebUI:用户名密码认证 客户端:无认证 Mapreduce WebUI:无认证 客户端:无认证 Oozie WebUI:用户名密码认证 客户端:simple认证 Spark2x WebUI:无认证 客户端:simple认证 Storm 无认证 Yarn WebUI:无认证 客户端:simple认证 ZooKeeper simple认证 认证方式解释如下: “simple认证”:在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”或“omm”)自动进行认证,管理员或业务用户不显式感知认证,不需要kinit完成认证过程。 “用户名密码认证”:使用集群中“人机”用户的用户名与密码进行认证。 “无认证”:默认任意的用户都可以访问服务端。
  • 解锁MRS集群LDAP管理账户 管理员在LDAP用户和管理账户被锁定时,需要在管理节点解锁集群LDAP用户“cn=pg_search_dn,ou=Users,dc=hadoop,dc=com”以及LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”和“cn=krbadmin,ou=Users,dc=hadoop,dc=com”。 Ldap用户或管理账户连续使用错误密码操作Ldap次数大于5次时,会造成LDAP用户或管理账户被锁定。用户被锁定之后,5分钟后会自动解锁。 该操作仅适用于MRS 3.x及之后版本。 以omm用户登录主管理节点。 执行以下命令,切换到目录: cd ${BIGDATA_HOME}/om-server/om/ldapserver/ldapserver/local/script 执行以下命令,解锁LDAP用户或管理账户: ./ldapserver_unlockUsers.sh USER_NAME 其中,USER_NAME表示将要解锁的用户名称。 例如,解锁LDAP管理账户“cn=krbkdc,ou=Users,dc=hadoop,dc=com”的方法如下: ./ldapserver_unlockUsers.sh krbkdc 运行脚本之后,在ROOT_DN_PASSWORD之后输入krbkdc用户密码,显示如下结果,说明解锁成功: Unlock user krbkdc successfully. 父主题: 解锁MRS集群用户
  • 修改Manager日志级别 以omm用户登录主管理节点。 执行以下命令,切换路径。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,修改日志级别。 ./setLogLevel.sh 日志级别参数 日志级别参数如下,优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少: “DEFAULT”:设置后恢复到默认日志级别。 “FATAL”:严重错误日志级别,设置后日志只会打印输出“FATAL”信息。 “ERROR”:错误日志级别,设置后日志打印输出“ERROR”和“FATAL”信息。 “WARN”:警告日志级别,设置后日志打印输出“WARN”、“ERROR”和“FATAL”信息。 “INFO”(默认):提示信息日志级别,设置后日志打印输出“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “DEBUG”:调试日志级别,设置后日志打印输出“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “TRACE”:跟踪日志级别,设置后日志打印输出“TRACE”、“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 由于开源中定义的不同,组件的日志级别定义略有差异。 验证日志级别设置已生效,请下载日志并查看。请参见下载MRS集群日志(MRS 3.x及之后版本)。
  • 配置定时备份告警与审计信息 用户通过修改配置文件,实现定时备份FusionInsight Manager的告警信息、Manager审计信息以及所有服务的审计信息到指定的存储位置。 备份支持使用SFTP协议或FTP协议,FTP协议未加密数据可能存在安全风险,建议使用SFTP。 本章节适用于MRS 3.x及以后版本。 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed. 父主题: 查看与配置MRS告警事件
  • 查看主机监控图表信息 通过MRS管理控制台查看: 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 单击“节点管理”并展开节点组信息,查看所有主机状态。 主机列表中包括节点名称/资源ID、IP、状态、规格、云硬盘、可用区等信息。 单击列表中指定的节点名称,查看单个节点状态及指标。 单击“监控”页签,可以查看当前节点的监控图表信息。 通过Manager查看: MRS 3.x及之后版本 登录FusionInsight Manager。 单击“主机”,查看主机列表信息。 在主机列表单击指定的主机名称,查看主机概览信息。 在主机详情页面,主要包含基本信息区、磁盘状态区、实例列表区和监控图表等。 单击“图表”页签,可直接查看该主机的全量监控图表信息。 图表页面可直接查看该主机的全量监控图表信息 MRS 2.x及之前版本 登录MRS Manager。 单击“主机管理”,看所有主机状态。 单击列表中指定的主机名称,查看单个主机状态及指标。 定制、导出监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 单击“导出”,导出当前查看的指标数据。
  • 前提条件 已安装包含Spark服务的集群客户端,安装目录如“/opt/hadoopclient”。 Spark服务运行状态正常。 在租户资源中添加租户,例如创建租户sparkstatic1,具体请参见添加MRS租户章节。 对于开启了Kerberos认证的集群,需要创建一个业务用户,例如创建用户“sparkuser”,该用户属于hive、hadoop、supergroup组,主组为hive,角色绑定sparkstatic1。
  • 配置用户私有属性 以业务用户登录FusionInsight Manager。 设置Independent属性后,管理员不能初始化私有用户(业务用户设置了Independent属性后,即为私有用户)的密码;如果忘记此用户密码,密码将无法找回。 admin用户无法设置Independent属性。 移动鼠标到界面右上角的用户名。 在弹出的菜单栏中单击“设置Independent”或“取消Independent”。 私有属性功能开关已开启,业务用户当前已设置私有属性时,菜单栏显示“取消Independent”。 私有属性功能开关已开启,业务用户当前已取消私有属性时,菜单栏显示“设置Independent”。 私有属性功能开关已关闭,业务用户当前已设置私有属性时,菜单栏显示“取消Independent”。 私有属性功能开关已关闭,业务用户当前已取消私有属性时,菜单栏不显示。 根据界面提示,输入密码,单击“确定”完成身份验证。 身份验证通过后,在确认对话框中单击“确定”。
  • 修改MRS集群NTP服务器 登录FusionInsight Manager,查看是否存在未清除的告警? 是,请修复告警。告警处理完毕后,执行2。 否,执行2。 以omm用户分别登录主备管理节点。 在主管理节点执行以下命令查看管理平面网关。 cat ${BIGDATA_HOME}/om-server/ OMS /workspace/conf/oms-config.ini | grep om_gateway 在主备管理节点分别执行ping 管理平面网关,检查节点是否与管理平面网关连通? 是,执行5。 否,请联系网络管理员修复网络故障,处理完毕后,执行5。 在主管理节点执行以下命令,获取当前环境NTP服务器域名。 本章节后续步骤中将以“ntp.myhuaweicloud.com”为例 cat /opt/Bigdata_func/cloudinit/cloudinit_params | grep ntpserver 在主管理节点执行以下命令,检查集群时间与新的NTP服务器时间偏差。单位为秒。 例如,检查与NTP服务器“ntp.myhuaweicloud.com”的时间差,执行ntpdate -d ntp.myhuaweicloud.com命令,界面显示: 6 Dec 15:16:10 ntpdate[2861453]: step time server 10.79.3.251 offset +2.118107 sec 其中+2.118107 sec表示时间偏差。正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢。 ntp的版本号可以使用ntpq -v或者ntpq --version命令查询,具体显示信息以实际环境为准。 ntpq -v界面显示: 10.1.1.112: ~# ntpq -v ntpq - standard NTP query program - Ver. 4.2.4p8 ntpq --version界面显示: 10.1.1.112: ~# ntpq --version ntpq 4.2.8p10@1.3728-o Mon Jun 6 08:01:59 UTC 2016 (1) 检查时间偏差的绝对值是否超过“150”。 是,执行8。 否,时间偏差的绝对值不超过“150”,以omm用户执行10。 确认是否可以停止集群。 是,停止上层业务并停止集群,然后执行9。 否,任务结束。 确认NTP服务器时间是否比集群当前时间慢? 是,NTP服务器时间慢,停止集群界面显示“操作成功”后需等待,间隔大约为6得到的时间偏差,再以omm用户执行11。 否,NTP服务器时间快,停止集群界面显示“操作成功”后直接以omm用户执行11。 在主管理节点执行以下命令,更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com NTP服务器IP地址不可以设置为集群内节点IP地址,否则可能会导致节点与主备oms节点业务网络断连。 在主管理节点执行以下命令,从NTP服务器“ntp.myhuaweicloud.com”立即强制同步时间并更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time 如果停止了集群,在更换NTP服务器后需要重新启动集群。 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。
  • 使用约束 防御规则默认动态生效时间为5秒,修改队列后Hive防御规则重新加载时间为10分钟。 拦截和熔断规则会中断SQL任务,请根据实际业务配置合理的值。 动态规则dynamic_0001(SQL语句扫描的文件数超过阈值),当Spark与Tez引擎达到提示阈值时拦截日志会在Yarn任务日志中打印,不支持在Beeline客户端输出。 熔断规则存在统计误差,例如规则running_0004,扫描数据量阈值配置10GB,但是因为判断周期和任务并发影响,可能在15GB甚至更高才进行熔断。
  • 使用约束 防御规则默认动态生效时间为5分钟。 拦截和熔断规则会中断SQL查询,请根据实际业务配置合理的值。 熔断规则由系统Session级别参数控制,配置熔断规则需要业务用户具有set session的权限。 静态规则static_0003中查询总的Join个数不包含Semi Join和Anti Join。 动态规则dynamic_0001和dynamic_0002配置提示规则时,只在日志记录提示信息,不在客户端显示。 熔断规则Running_0001中,因客户端和服务端是异步请求,当服务端已经阻断请求后客户端可能显示Query is gone,此时可通过查看日志确认请求已被阻断。
  • 前提条件 已安装包含ClickHouse服务的集群客户端,例如安装目录为“/opt/hadoopclient”。 ClickHouse逻辑集群运行状态正常。 对于开启了Kerberos认证的集群,需要创建具有ClickHouse表操作权限的业务用户,例如创建人机用户“clickhouseuser”。 已创建关联了ClickHouse服务的租户,并与ClickHouse业务用户关联,具体请参见添加MRS租户章节。
  • 功能介绍 MRS在主力SQL引擎(Hive、Spark、HetuEngine、ClickHouse)中增加SQL防御能力,基于用户可理解的SQL防御策略,实现对典型大SQL、低质量SQL的主动防御,包括事前拦截和事中熔断,并不强制改变用户的SQL提交方式、SQL语法,对业务零改动且易落地。 支持管理员界面化配置SQL防御策略,同时可支持防御规则的查询和修改。 每个SQL引擎在进行SQL业务响应、执行过程中,基于SQL防御策略进行主动防御行为。 管理员可将SQL防御行为在“提示”、“拦截”、“熔断”选项之间进行灵活切换,系统会将发生的SQL防御事件实时写入到防御审计日志中。运维人员可进行 日志分析 ,评估现网SQL质量,提前感知潜在SQL风险,并做出有效预防措施。 SQL防御规则包含以下类型: 静态拦截规则:基于纯粹的SQL语法规则进行拦截或提示。 动态拦截规则:基于与数据表的统计信息、元数据信息等内容有关的规则进行拦截或提示。 运行熔断规则:基于SQL语句运行时的系统动态信息(如CPU、内存、IO等)的规则进行阻断。 对于静态拦截规则、动态拦截规则,系统在SQL请求满足条件时,可对该请求进行中止或者提示处理。对于运行熔断规则,系统在SQL请求满足条件时,会阻断该SQL任务。
  • 告警解释 ClickHouse各节点之间,分布式表对应的本地表中,若存在数据倾斜,系统产生此告警。当检测到数据均衡时,告警自动清除。 数据倾斜检测方法: 当参数“min_table_check_data_bytes”值为“0”时,不启用数据倾斜检查。 当参数“min_table_check_data_bytes”值为大于“0”时,启用数据倾斜检查。 启用数据检查后,若表数据量小于min_table_check_data_bytes,则不会因为存在倾斜而上报告警。当数据量大于min_table_check_data_bytes,且节点之间某张表数据量相差大于min_table_data_varies_rate中设置的百分比时,则存在数据倾斜且上报告警。
  • MRS 1.9.3.9补丁说明 补丁号 MRS 1.9.3.9 发布时间 2023-07-30 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.9补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 支持D系列磁盘热插拔 支持HDFS单副本检测能力 补丁兼容关系 MRS 1.9.3.9补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 MRS 1.9.3.11补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,不需要重启大数据组件。 MRS 1.9.3.10补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,不需要重启大数据组件。 MRS 1.9.3.9补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,安装完需要重启HDFS、YARN、MapReduce、Kafka以及相关依赖服务。 MRS 1.9.3.8补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装,安装完需要重启HDFS、YARN、MapReduce、Kafka、Hive、HBase、Spark、Presto以及相关依赖服务。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 1.9.3.8打补丁升级到MRS 1.9.3.9,需要重启MRS 1.9.3.9补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换; 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.3.9及其后续补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。
  • MRS 1.9.3.10补丁说明 补丁号 MRS 1.9.3.10 发布时间 2023-11-10 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.10补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 新增磁盘不可用告警 新增设备分区丢失告警自动清除能力 慢盘/卡io算法优化 慢盘自动隔离机制优化 补丁兼容关系 MRS 1.9.3.10补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 1.9.3.11补丁说明 补丁号 MRS 1.9.3.11 发布时间 2024-02-10 安装前处理 安装此补丁前,如果之前有装过MRS_1x2x_Patch_Diskmgt_20230308.tar.gz补丁,需要先卸载该补丁,卸载完之后请等待10分钟再执行MRS 1.9.3.11补丁的安装操作。 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持慢盘隔离告警功能 补丁兼容关系 MRS 1.9.3.11补丁包中已包含所有MRS 1.9.3版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 如何配置网络ACL出规则? 方案一: 放通网络ACL所有出站流量,此方案能保证集群正常创建与使用,优先建议使用此方案。 图3 放通网络ACL所有出站流量配置示例 方案二: 放通保证集群创建成功的最小出规则,此方案可能在后续使用中因出方向规则遗漏导致集群使用问题,不建议使用方案。若出现集群使用问题请联系运维人员支撑处理。 配置示例:参照方案一中示例,配置策略为“允许”,目的地址为通信安全授权地址、NTP、OBS、Openstack及 DNS地址 的出方向规则。
  • MRS节点引导操作概述 用户可以通过引导操作来完成安装其他第三方软件,修改集群运行环境等自定义操作。 引导操作可以在集群组件首次启动前/后在指定的节点上执行脚本。已运行的集群组件添加的引导操作,只能通过手动方式在节点上执行第三方组件的安装脚本进行安装。 如果集群扩容,选择执行引导操作,则引导操作也会以相同方式在新增节点上执行。如果集群开启弹性伸缩功能,可以在配置资源计划的同时添加自动化脚本,则自动化脚本会在弹性伸缩的节点上执行,实现用户自定义操作。 MRS 2.x及之前版本:引导操作脚本以root身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。脚本内部您可以通过su - xxx命令切换用户。 MRS 3.x及之后版本:引导操作脚本以omm身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。脚本内部您可以通过su - xxx命令切换用户。 MRS通过引导操作脚本返回码来判断结果,如果返回零,则代表脚本执行成功,非零代表执行失败。一个节点上执行某个引导脚本失败,则会导致相应引导脚本失败,您可以通过“失败后操作”来选择是否继续执行后续脚本。 样例1:创建集群指定所有脚本的“失败后操作”均选择“继续”,则不论这些脚本实际执行成功或失败,都会全部执行,并完成启动流程。 样例2:如果一个脚本执行失败,且“失败后操作”选择“终止”,则不会执行后续脚本,集群创建或扩容也随之失败。 您最多可以添加18个引导操作,它们会按照您指定的顺序在集群组件启动前(或后)执行。组件启动前(或后)执行的引导操作,必须在60分钟内完成,否则会引起集群创建或扩容失败。 父主题: 配置MRS集群节点引导操作
共100000条