华为云用户手册

  • 登录弹性云服务器(SSH密码方式) 本地使用Windows操作系统 如果本地主机为Windows操作系统,可以按照下面方式登录弹性云服务器。下面步骤以PuTTY为例。 登录 MapReduce服务 管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 选择“弹性公网IP”页签,单击“绑定弹性IP”为弹性云服务器绑定一个弹性公网IP并记录该IP地址,若已绑定弹性公网IP请跳过该步骤。 运行PuTTY。 单击“Session”。 Host Name (or IP address):输入弹性云服务器所绑定的弹性公网IP。 Port:输入 22。 Connection Type:选择 SSH。 Saved Sessions:任务名称,在下一次使用PuTTY时就可以单击保存的任务名称,即可打开远程连接。 图3 单击Session 单击“Window”,在“Translation”下的“Remote character set:”选择“UTF-8”。 单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 建立到云服务器的SSH连接后,根据提示输入用户名和密码登录弹性云服务器。 用户名、密码分别是root和创建集群时设置的密码。 本地使用Linux操作系统 如果本地主机为Linux操作系统,您可以参考1~4为弹性云服务器绑定弹性公网IP后,在计算机的命令行中运行如下命令登录弹性云服务器:ssh 弹性云服务器绑定的弹性公网IP
  • 登录弹性云服务器(VNC方式) 登录MapReduce服务管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 单击右上角的“远程登录”。 根据界面提示,输入Master节点的用户名和密码。 创建集群时登录方式选择了“密码”,如图1。此时,你需要输入的用户名、密码分别是root和创建集群时设置的密码。 图1 密码方式 创建集群时登录方式选择了密钥对,则使用如下方式登录: 创建集群成功后,参见为弹性云服务器申请和绑定弹性公网IP为集群的Master节点绑定一个弹性IP地址。 使用root用户名和密钥文件,SSH方式远程登录Master节点。 执行passwd root命令,设置root用户密码。 设置成功后,返回界面登录方式,输入root用户名和5.b.iii设置的密码,登录节点。
  • 通过Manager删除租户 MRS 3.x及之后版本: 登录Manager,单击“租户资源”。 在左侧租户列表,选择待删除的租户,单击。 根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户资源的数据。”,否则将自动删除租户对应的存储空间。 如果使用不属于supergroup组的用户执行删除租户操作,并且不保留租户数据,需要使用属于supergroup组的用户登录HDFS客户端,手动清理租户对应的存储空间,以免数据残留。 如果确认删除,在弹出的“删除租户”窗口中输入“DELETE ”,单击“确定”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。同时Yarn角色管理中,此租户任务队列不再显示。 MRS 2.x及之前版本: 在MRS Manager,单击“租户管理”。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示删除租户对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“是”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 通过管理控制台删除租户 在集群详情页,单击“租户管理”。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示删除租户对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“是”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 前提条件 如果通过MRS管理控制台操作,需要已完成 IAM 用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 检查待删除的租户是否存在子租户,如果存在,需要先删除全部子租户,否则无法删除当前租户。 待删除租户的角色,不能与任何一个用户或者用户组存在关联关系。
  • Manager例行维护 为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对下表所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。 表1 项目一览表 例行维护周期 任务场景 例行维护内容 每天 检查集群服务状态 检查每个服务的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的主备状态是否可以正常显示。 检查服务与角色实例的“概览”显示结果是否正常。 检查集群主机状态 检查每个主机当前的运行状态是否正常,是否为绿色。 检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。 检查集群告警信息 检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。 检查集群审计信息 检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。 检查集群备份情况 检查前一天 OMS 、LDAP、DBService和NameNode数据是否自动备份。 检查健康检查结果 在Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。 检查网络通讯 检查集群网络工作状态,节点之间的网络通讯是否存在延时。 检查存储状态 检查集群总体数据存储量是否出现了突然的增长: 磁盘使用量是否已接近阈值,排查原因,例如是否有业务留下的垃圾数据或冷数据需要清理。 业务是否有增长需求,磁盘分区是否需要扩容。 检查日志情况 检查是否有失败、失去响应的MapReduce、Spark任务,查看HDFS中“/tmp/logs/${username}/logs/${application id}”日志文件并排除问题。 检查Yarn的任务日志,查看失败、失去响应的任务日志,并删除重复数据。 检查Storm的worker日志。 备份日志到存储服务器。 每周 用户管理 检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。 分析告警 导出指定周期内产生的告警并分析。 扫描磁盘 对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 统计存储 分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 记录变更 安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。 每月 分析日志 收集集群节点服务器的硬件日志,例如BMC系统日志,并进行分析。 收集集群节点服务器的操作系统日志,并进行分析。 收集集群日志,并进行分析。 诊断网络 对集群的网络健康状态进行分析。 管理硬件 检查设备运行的机房环境,安排清洁设备。
  • 日志维护建议 利用日志记录来帮助发现非法操作、非法登录用户等异常情况。系统对于重要业务的操作需要记录日志。通过日志文件来定位异常。 定期检查日志 定期查看系统日志,若发现有非法操作、非法登录用户等异常情况,应根据异常情况进行相应的处理。 定期备份日志 Manager和集群提供的审计日志记录了用户活动信息和操作信息,可通过Manager导出审计日志。当系统中的审计日志过多时,可通过配置转储参数,将审计日志转储到指定服务器,避免引起集群节点磁盘空间不足。 维护责任人 网络监控工程师、系统维护工程师。
  • 安装补丁的影响 MRS 3.1.5版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换。 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力。 MRS 3.1.5.0.1及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 支持EVS磁盘分区容量扩容。 MRS 3.1.5.0.3 及之后的补丁版本中diskmgt服务会检测EVS磁盘(受diskmgt服务监控的磁盘)容量是否增加,如果有增加将则会进行该磁盘下分区(单个分区独占磁盘容量)容量和文件系统的扩容,达到自动扩充磁盘分区存储容量的能力。
  • MRS 3.1.5.0.1补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.1.5.0.1 发布时间 2023-05-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 说明: 如果需要打开慢盘隔离特性,在安装此补丁前,需要先安装支持慢盘隔离特性的定制补丁MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz,补丁下载地址请参考补丁下载地址。 大数据组件 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.1补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装完成后必须的手动操作 MRS 3.1.5.0.1版本的补丁安装/卸载完成后需要在 FusionInsight Manager Web界面上,重启Yarn、HDFS和MapReduce服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.2版本的补丁安装/卸载完成后不需要重启大数据组件。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.5.0.1打补丁升级到MRS 3.1.5.0.2,需要重启MRS 3.1.0.0.2补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 MRS 3.1.5.0.3版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启ClickHouse、HDFS、Kafka、Kudu、MapReduce、Yarn和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.3版本的补丁安装完成后,如需对接 CES ,请联系运维处理。
  • MRS 3.1.5.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.5.0.2 发布时间 2023-08-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持安装root权限的补丁。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.2补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz
  • MRS 3.1.5.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.5.0.3 发布时间 2023-11-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 安装MRS 3.1.5.0.3补丁前,需要先安装MRS 3.1.5.0.2补丁,以支持root权限的补丁能力。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力。 支持EVS磁盘分区容量扩容。 支持D系列磁盘热插拔。 支持运维巡检特性。 支持监控指标上报CES。 支持HDFS单副本检测能力。 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.3补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • 安装补丁的影响 安装MRS 2.1.0.3补丁期间会重启MRS Manager,滚动重启Hive、Spark、HDFS、Yarn、Mapreduce、Presto、HBase以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 2.1.0.3补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.3 发布时间 2020-04-29 解决的问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.3补丁包中包含MRS 2.1.0版本发布的所有补丁内容。
  • 账号一览表(MRS 2.x及之前版本) 用户分类 MRS集群提供以下3类用户,请用户定期修改密码,不建议使用默认密码。 用户类型 使用说明 系统用户 通过Manager创建,是MRS集群操作运维与业务场景中主要使用的用户,包含两种类型: “人机”用户:用于在Manager的操作运维场景,以及在组件客户端操作的场景。 “机机”用户:用于MRS集群应用开发的场景。 用于OMS系统进程运行的用户。 系统内部用户 MRS集群提供的用于Kerberos认证、进程通信、保存用户组信息和关联用户权限的内部用户。系统内部用户不建议在操作与维护的场景下使用。请通过admin用户操作,或联系系统管理员根据业务需要创建新用户。 数据库用户 用于OMS数据库管理和数据访问的用户。 用于业务组件(Hive、Loader和DBservice)数据库的用户。 系统用户 MRS集群需要使用操作系统中ldap用户,此账号不能删除,否则可能导致集群无法正常工作。密码管理策略由操作用户维护。 首次修改“ommdba”和“omm”密码需执行重置密码操作。找回密码后建议定期修改。 类别 用户名称 初始密码 描述 MRS集群系统管理员 admin 在集群创建时由用户指定。 MRS Manager的管理员。 此外还具有以下权限: 具有HDFS、ZooKeeper普通用户的权限。 具有提交、查询Mapreduce、YARN任务的权限,以及YARN队列管理权限和访问YARN WebUI的权限。 Storm中,具有提交、查询、激活、去激活、重分配、删除拓扑的权限,可以操作所有拓扑。 Kafka服务中,具有创建、删除、授权、Reassign、消费、写入、查询主题的权限。 MRS集群节点操作系统用户 omm 系统随机生成 MRS集群系统的内部运行用户。在全部节点生成,属于操作系统用户,无需设置为统一的密码。 MRS集群节点操作系统用户 root 用户设置的密码。 MRS集群所属节点的登录用户。在全部节点生成,属于操作系统用户。 系统内部用户 以下系统内部用户不能删除,否则可能导致集群或组件无法正常工作。 仅在已启用Kerberos认证的集群中使用。 类别 默认用户 初始密码 描述 组件运行用户 hdfs Hdfs@123 HDFS系统管理员,用户权限: 文件系统操作权限: 查看、修改、创建文件 查看、创建目录 查看、修改文件属组 查看、设置用户磁盘配额 HDFS管理操作权限: 查看webUI页面状态 查看、设置HDFS主备状态 进入、退出HDFS安全模式 检查HDFS文件系统 hbase Hbase@123 HBase系统管理员,用户权限: 集群管理权限: 表的Enable、Disable操作,触发MajorCompact,ACL操作 授权或回收权限,集群关闭等操作相关的权限 表管理权限: 建表、修改表、删除表等操作权限 数据管理权限:表级别、列族级别以及列级别的数据读写权限 访问HBase WebUI的权限 mapred Mapred@123 MapReduce系统管理员,用户权限: 提交、停止和查看MapReduce任务的权限 修改Yarn配置参数的权限 访问Yarn、MapReduce WebUI的权限 spark Spark@123 Spark系统管理员,用户权限: 访问Spark WebUI的权限 提交Spark任务的权限 用户组信息 默认用户组 描述 supergroup admin用户的主组,在关闭Kerberos认证的集群中没有额外的权限。 check_sec_ldap 用于内部测试主LDAP是否工作正常。用户组随机存在,每次测试时创建,测试完成后自动删除。系统内部组,仅限组件间内部使用。 Manager_tenant 租户系统用户组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 System_administrator MRS集群系统管理员组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 Manager_viewer MRS Manager系统查看员组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 Manager_operator MRS Manager系统操作员组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 Manager_auditor MRS Manager系统审计员组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 Manager_administrator MRS Manager系统管理员组。系统内部组,仅限组件间内部使用,且仅在已启用Kerberos认证的集群中使用。 compcommon MRS集群系统内部组,用于访问集群公共资源。所有系统用户和系统运行用户默认加入此用户组。 default_1000 为租户创建的用户组。系统内部组,仅限组件间内部使用。 launcher-job MRS系统内部组,用于使用V2接口提交作业。 hadoop 将用户加入此用户组,可获得所有Yarn队列的任务提交权限。仅在已启用Kerberos认证的集群中使用。 hbase 普通用户组,将用户加入此用户组不会获得额外的权限。仅在已启用Kerberos认证的集群中使用。 hive 将用户加入此用户组,可以使用Hive。仅在已启用Kerberos认证的集群中使用。 spark 普通用户组,将用户加入此用户组不会获得额外的权限。仅在已启用Kerberos认证的集群中使用。 kafka Kafka普通用户组。添加入本组的用户,需要被kafkaadmin组用户授予特定Topic的读写权限才能访问对应Topic。仅在已启用Kerberos认证的集群中使用。 kafkasuperuser 添加入本组的用户,拥有所有Topic的读写权限。仅在已启用Kerberos认证的集群中使用。 kafkaadmin Kafka管理员用户组。添加入本组的用户,拥有所有Topic的创建,删除,授权及读写权限。仅在已启用Kerberos认证的集群中使用。 storm Storm的普通用户组,属于该组的用户拥有提交拓扑和管理属于自己的拓扑的权限。仅在已启用Kerberos认证的集群中使用。 stormadmin Storm的管理员用户组,属于该组的用户拥有提交拓扑和管理所有拓扑的权限。仅在已启用Kerberos认证的集群中使用。 opentsdb 普通用户组,将用户加入此用户组不会获得额外的权限。仅在已启用Kerberos认证的集群中使用。 presto 普通用户组,将用户加入此用户组不会获得额外的权限。仅在已启用Kerberos认证的集群中使用。 flume 普通用户组,添加到该用户组的用户无任何额外权限。仅在已启用Kerberos认证的集群中使用。 launcher-job MRS系统内部组,用于使用V2接口提交作业。仅在已启用Kerberos认证的集群中使用。 操作系统用户组 描述 wheel MRS集群系统内部运行用户“omm”的主组。 ficommon MRS集群系统公共组,对应“compcommon”,可以访问集群在操作系统中保存的公共资源文件。 数据库用户 MRS集群系统数据库用户包含OMS数据库用户、DBService数据库用户。 数据库用户不能删除,否则可能导致集群或组件服务无法正常工作。 类别 默认用户 初始密码 描述 OMS数据库 ommdba dbChangeMe@123456 OMS数据库管理员用户,用于创建、启动和停止等维护操作。 omm ChangeMe@123456 OMS数据库数据访问用户。 DBService数据库 omm dbserverAdmin@123 DBService组件中 GaussDB数据库 的管理员用户。 hive HiveUser@ Hive连接DBService数据库用户。 hue HueUser@123 Hue连接DBService数据库用户。 ranger RangerUser@ Ranger连接DBService数据库的用户。仅在已启用Kerberos认证的集群中使用。 sqoop SqoopUser@ Loader连接DBService数据库的用户。
  • 同步IAM用户 创建用户并授权使用MRS服务,具体请参考创建IAM用户并授权使用MRS。 登录MRS控制台并创建集群,具体请参考自定义购买MRS集群。 在左侧导航栏中选择“现有集群”,单击集群名称进入集群详情页面。 在“概览”页签单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。 在弹窗“IAM用户同步”的“待同步”页面,搜索需要同步IAM用户所在的用户组,单击对应的用户组名称。在“用户”中勾选需要同步的IAM用户,单击“同步”。 如需同步所有的用户,在“待同步”中勾选“全部同步”即可。 如只勾选“用户组”,该用户组下的用户不会同步,必须勾选“用户组”下对应的用户名称才能同步。 在“IAM用户同步”页面会显示所有的用户组,所有灰色不能选择的用户组和用户则不能进行IAM用户同步。 同步请求下发后,返回MRS控制台在左侧导航栏中选择“操作日志”页面查看同步是否成功,日志相关说明请参考查看MRS云服务操作日志。 同步成功后,即可使用IAM同步用户进行后续操作。 当IAM用户的用户组的所属策略从MRS ReadOnlyAccess向MRS CommonOperations、MRS FullAccess、MRS Administrator变化时,由于集群节点的SSSD(System Security Services Daemon)缓存刷新需要时间,因此同步完成后,请等待5分钟,等待新修改策略生效之后,再进行提交作业。否则,会出现提交作业失败的情况。 当IAM用户的用户组的所属策略从MRS CommonOperations、MRS FullAccess、MRS Administrator向MRS ReadOnlyAccess变化时,由于集群节点的SSSD缓存刷新需要时间,因此同步完成后,请等待5分钟,新修改策略才能生效。 单击“IAM用户同步”右侧的“同步”后,集群详情页面会出现短时间空白,这是由于正在进行用户数据同步中,请耐心等待,数据同步完成后,页面将会正常显示。 安全集群提交作业:安全集群中用户可通过界面“作业管理”功能提交作业,具体请参考运行MapReduce作业。 集群详情页面页签显示完整(包含“组件管理”,“租户管理”和“备份恢复”)。 登录Manager页面。 使用admin账号登录Manager,具体请参考访问MRS集群Manager。 初始化IAM同步用户密码,具体请参考初始化MRS集群用户密码。 修改用户所在用户组绑定的角色,精确控制Manager下用户权限,具体请参考管理MRS集群用户组修改用户组绑定的角色,如需创建修改角色请参考添加角色。用户所在用户组绑定的组件角色修改后,权限生效需要一定时间,请耐心等待。 使用IAM同步用户及7.b初始化后的密码登录Manager。 当IAM用户权限发生变化时,需要执行4进行二次同步。对于系统用户,二次同步后用户的权限为IAM系统策略定义的权限和用户在Manager自行添加角色的权限的并集。对于自定义用户,二次同步后用户的权限以Manager配置的权限为准。 系统用户:如果IAM用户所在用户组全部都绑定系统策略(RABC策略和细粒度策略均属于系统策略),则该用户为系统用户。 自定义用户:如果IAM用户所在用户组只要有绑定任何自定义策略,则该用户为自定义用户。 取消IAM用户同步。 需要取消某个IAM用户同步时,在“已同步”的“用户”中勾选需要取消的用户名称,单击“取消同步”。 需要取消某个IAM用户组下的所有用户同步时,在“已同步”的“用户组”中勾选需要取消的用户组,单击“取消同步”。
  • 通过管理控制台管理资源池 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页,单击“租户管理”。 单击“资源池”页签。 在资源池列表指定资源池所在行的“操作”列,单击“修改”。 修改资源池主机。 增加主机:在界面左边主机列表,勾选指定的主机名称加入资源池。 删除主机:在界面右边主机列表,单击指定主机后的将选中的主机移出资源池。资源池中的主机列表可以为空。 单击“确定”保存。 如需删除资源池,可以在“资源池”页签,单击资源池列表指定资源池所在行的“操作”列的“删除”。在弹出窗口中单击“确定”。
  • 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。 如果需要删除资源池,需满足以下要求: 集群中任何一个队列不能使用待删除资源池为默认资源池,删除资源池前需要先取消默认资源池,请参见配置MRS租户队列。 集群中任何一个队列不能在待删除资源池中配置过资源分布策略,删除资源池前需要先清除策略,请参见清除MRS租户队列配置。
  • 升级客户端 如果有使用自主安装的客户端(集群内、外新下载客户端),需要执行客户端升级操作。 登录集群主节点并执行以下命令: cd /opt/Bigdata/patches/{MRS补丁版本号}/download/ 将补丁安装包拷贝到客户端机器/opt/目录下: scp patch.tar.gz {客户端机器IP}:/opt/ 例如: scp patch.tar.gz 127.0.0.1:/opt/ 登录客户端所在节点。 执行以下命令创建补丁目录并解压补丁包: mkdir /opt/{MRS补丁版本号} tar -zxf /opt/patch.tar.gz -C /opt/{MRS补丁版本号} 执行客户端补丁升级。 登录客户端所在节点,并执行以下命令: cd /opt/{MRS补丁版本号}/client sh upgrade_client.sh upgrade {客户端安装目录} 例如: sh upgrade_client.sh upgrade /opt/client/
  • 升级HDFS上组件的zip包 登录集群主节点并执行以下命令: su - omm cd /opt/Bigdata/patches/{MRS补丁版本号}/client/ source /opt/Bigdata/client/bigdata_env 所有涉及{MRS补丁版本号}目录名称的操作,均以实际安装的补丁号为准。 例如: cd /opt/Bigdata/patches/MRS_3.2.0-LTS.1.8/client/ 安全集群需要认证对HDFS有权限的用户,普通集群无需执行: kinit {用户} 执行以下命令升级HDFS上的zip包: sh update_hdfs_file.sh 升级完成后需要在FusionInsight Manager界面上重启Spark的JD BCS erver2x实例。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.1.0.8 发布时间 2020-08-04 解决的问题 MRS 2.1.0.8 修复问题列表: MRS Manager 解决委托访问OBS,E CS 接口限流问题 MRS Manager支持多人登录 支持全链路监控 MRS大数据组件 carbon2.0升级 解决HBASE-18484问题 MRS 2.1.0.7 修复问题列表: MRS Manager 解决DLF+Presto查询时字段中包含换行符,数据和文件显示问题 支持presto查询结果保存成一个文件 MRS 2.1.0.6 修复问题列表: MRS Manager 解决磁盘IO利用率监控数据不准确问题 解决偶现spark作业状态未刷新问题 解决作业运行失败问题 优化补丁机制 MRS大数据组件 解决HBase异常问题 解决Hive Role绑定权限卡顿问题 MRS 2.1.0.5 修复问题列表: MRS大数据组件 impala支持ObsFileSystem功能 支持MRS Manager页面以及组件原生页面超时时间可配置 解决Hive绑定权限卡顿问题 解决数据连接失败问题 MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager executor进程会内存溢出 支持提交作业,manager executor可配置并发度功能 MRS manager管理面看不到Kafka新建的topic 安全集群API方式提交Spark Submit作业操作HBase表,HBase表权限控制未生效 MRS manager补丁机制优化 MRS大数据组件 Spark执行load data inpath慢 Spark建表支持列名带$字符 OBS相关问题修复 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS大数据组件 MRS Hive解决hive server内存泄露问题:HIVE-10970、HIVE-22275。 补丁兼容关系 MRS 2.1.0.8补丁包中包含MRS 2.1.0版本发布的所有补丁内容。 已修复漏洞披露 解决Spark远程代码执行漏洞,漏洞详细请参考CVE-2020-9480
  • 安装补丁的影响 安装MRS 1.9.0.7补丁期间会重启MRS Manager,滚动重启Hadoop、Hive、Spark、Kafka、Ranger以及相关依赖服务,重启MRS Manager服务期间会引起服务暂时不可用,滚动重启服务不断服。 MRS 1.9.0.7补丁安装后,需要重新下载安装全量的客户端,包含Master节点的原始客户端和虚拟私有云的其他节点使用的客户端(即您自行搭建的客户端)。 主备Master节点的原始客户端全量更新,请参见更新客户端配置(2.x及之前版本)。 自行搭建的客户端全量安装方法,请参见安装客户端(2.x及之前版本)。 重新安装客户端前建议先对老客户端进行备份。 若您根据业务场景修改过客户端配置,请重装客户端后再次修改客户端配置。
  • 补丁基本信息 表1 补丁基本信息 补丁号 MRS 1.9.0.7 发布时间 2021-01-15 解决的问题 MRS 1.9.0.7 修复问题列表: MRS Manager 解决扩容刷新队列导致队列丢失问题 MRS大数据组件 解决Hive on Spark任务报block id乱码,导致任务卡顿问题 解决Hadoop的task任务报空间不足失败问题 Hive中增加自研的接口 解决map.xml无法读取的问题 解决ZK脏数据导致Yarn服务不可用问题 解决Yarn的ResourceManager内存泄漏问题 Hive har特性优化 OBS包升级 JDK版本升级 MRS 1.9.0.6 修复问题列表: MRS Manager MRS Manager支持包周期集群指定节点缩容 MRS大数据组件 解决Hivese提交sql卡顿问题 支持jobhistory查询失败信息接口 解决细粒度权限不生效问题 解决hive on Spark读取数据异常问题 解决Hive on mrs任务执行两次数据量增大问题 解决Hive开启矢量向量化查询有些字符串性能差问题 MRS 1.9.0.5 修复问题列表: MRS Manager MRS Manager优化保存配置时的服务重启过程 MRS Manager解决周期备份失败问题 MRS大数据组件 Ranger的私有patch 解决Yarn出现JVM Create GC thread failed问题 新增Hiveserver2 任务堆积告警 新增Hiveserver HiveMetastore GC时间超过5s告警 新增HiveServer2 解注ZK告警 新增20分钟内Yarn任务失败与kill数超过5个的告警 解决spark jobhistory时区不对问题 优化metastore重启机制 解决HIVE-22771开源问题 解决Hive beeline不打印日志的问题 解决Yarn页面上active node数目不对问题 解决RM线程数过多导致RM页面打开慢问题 支持OBS监控 OBS包升级 解决hive-jdbc并发插入10条数据时部分数据未插入问题 解决hive偶现报kryo反序列化失败问题 解决Spark jobhistory内存泄漏问题 解决Spark jobhistory偶现无法显示application列表问题 MRS 1.9.0.3 修复问题列表: MRS Manager MRS Manager升级ARM JDK MRS Manager解决Core节点日志撑满系统盘问题 MRS大数据组件 解决Ranger日志不能设置个数,有撑满磁盘风险的问题 MRS 1.9.0.2 修复问题列表: MRS Manager 解决集群中部分Core节点互信丢失问题 解决补丁安装后添加实例失败问题 MRS Manager页面支持修改hiveserver的滚动重启超时时间 MRS大数据组件 obs包升级 MRS 1.9.0.1 修复问题列表: MRS Manager MRS Manager支持滚动安装补丁时不重启服务 MRS大数据组件 解决obs委托的5min内140次的访问限制问题 Kafka支持开源方式访问 解决SPARK-27637开源问题 优化hive滚动重启 obs包升级 补丁兼容关系 MRS 1.9.0.7补丁包中包含MRS 1.9.0版本发布的所有补丁解决的问题。
  • 查看执行结果 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。 在集群详情页面选择“引导操作”页签。系统显示创建集群时所添加的引导操作信息。 图1 引导操作信息 可以通过选择右上角的“组件首次启动前”或者“组件首次启动后”查询相关的引导操作信息。 这里列出的是上次执行结果。对于新创建的集群,则列出的是创建时执行引导操作的记录;如果集群被扩容了,则列出的是上次扩容对新增节点执行引导操作的记录。
  • 编辑镜像介绍 资产发布上架后,准确、完整的资产介绍有助于提升资产的排序位置和访问量,能更好的支撑用户使用该资产。 在镜像详情页,选择“镜像介绍”页签,单击右侧“编辑介绍”。 编辑镜像基础设置和镜像描述。 表2 镜像介绍的参数说明 参数名称 说明 基础设置 中文名称 显示镜像的名称,不可编辑。 README.md - 资产的README内容,支持添加资产的简介、使用场景、使用方法等信息。 编辑完成后,单击“确认”保存修改。
  • 管理镜像文件 预览文件 在镜像详情页,选择“镜像文件”页签。单击文件名称即可在线预览文件内容。 仅支持预览大小不超过10MB、格式为文本类或图片类的文件。 下载文件 在镜像详情页,选择“镜像文件”页签。单击操作列的“下载”,选择保存路径单击“确认”,即可下载文件到本地。 删除文件 在镜像详情页,选择“镜像文件”页签。单击操作列的“删除”,确认后即可将已经托管的文件从AI Gallery仓库中删除。 文件删除后不可恢复,请谨慎操作。
  • 其他性能分析工具 对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景,昇腾提供了性能比对工具compare_tools,通过对训练耗时和内存占用的比对分析,定位到具体劣化的算子,帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度,并针对计算和通信分别进行算子级别的比对;将训练占用的总内存,拆分成算子级别的内存占用进行比对。 对于集群训练场景,昇腾提供了集群分析工具cluster_analysis,当前主要对基于通信域的迭代内耗时分析、通信时间分析以及通信矩阵分析为主,从而定位慢卡、慢节点以及慢链路问题。 父主题: PyTorch迁移性能调优
  • Step4 启动镜像 启动容器镜像。启动前可以根据实际需要增加修改参数,Lora微调启动单卡,finetune微调启动八卡。 docker run -itd --name sdxl-train -v /sys/fs/cgroup:/sys/fs/cgroup:ro -v /etc/localtime:/etc/localtime -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi --shm-size 60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 --device=/dev/davinci6 --device=/dev/davinci7 --security-opt seccomp=unconfined --network=bridge koyha_ss-train:0.0.1 bash 参数说明: --device=/dev/davinci0,..., --device=/dev/davinci7:挂载NPU设备,示例中挂载了8张卡davinci0~davinci7。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。
  • Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NPU卡状态。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward
共100000条