华为云用户手册

数据治理中心 DATAARTS STUDIO-新建码表:通过逆向数据库导入码表

通过逆向数据库导入码表通过逆向数据库，您可以从其他数据源中将一个或多个已创建的数据库表导入到码表目录中，使其变成码表。在数据架构控制台，单击左侧导航树中的“码表管理”，进入码表管理页面。在左侧的码表目录树中，选中一个目录，然后在码表列表上方，单击“逆向数据库”。在“逆向数据库”对话框中，配置如下参数，然后单击“确定”。表5 逆向数据库配置参数名称说明 *数据连接类型在下拉列表中将显示逆向数据库支持的数据连接类型，请选择所需要的数据连接类型。 *数据连接选择数据连接。如需从其他数据源逆向数据库到码表目录中，需要先在 DataArts Studio 管理中心创建一个数据连接，以便连接数据源。创建数据连接的操作，请参见配置DataArts Studio数据连接参数。 *数据库选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。队列 DLI 队列。仅当“数据连接类型”选择“DLI”时，该参数有效。更新已有表如果从其他数据源逆向过来的表，在码表中已存在同名的表，选择是否更新已有的码表。名称来源逆向后表名称/字段名称的来源，可以是描述或者是相应英文名，如表/字段未指定描述则固定使用英文名。来自描述来自英文名称说明：进行逆向数据库配置时，如果逆向后表中文名称/字段中文名称的来源选择“来自描述”，则用中文名在进行描述时，表的字段注释不能重复。逆向表数据不逆向：逆向数据库时，将表导入到码表目录中，但是不导入表数据。您可以在完成逆向数据库后，参考填写数值到码表中添加记录到码表中。覆盖：逆向数据库时，将表导入到码表目录中，同时将表数据导入到该码表中。 *数据表选择一个或多个需导入的数据表。选择部分搜索时，支持通过多个表进行筛选，多表之间用英文分号进行分隔。搜索名称最大不超过2000字符。每次最多返回20条数据。图8 逆向配置逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功，单击“关闭”。如果逆向失败，您可以查看失败原因，问题解决后，选中失败的表，然后单击“重新逆向”进行重试。图9 逆向结果

数据治理中心 DATAARTS STUDIO 标准设计
数据治理中心 DATAARTS STUDIO-上传CDM连接驱动:如何获取驱动

如何获取驱动不同类型的关系数据库，需要适配不同类型的驱动。注意，上传的驱动版本不必与待连接的数据库版本相匹配，直接参考表1获取建议版本的JDK8 .jar格式驱动即可。表1 获取驱动关系数据库类型驱动名称获取地址建议版本云数据库 MySQL MySQL MYSQL https://downloads.mysql.com/archives/c-j/ 5.1.48版本，获取mysql-connector-java-5.1.48.jar Oracle ORACLE_6 ORACLE_7 ORACLE_8 驱动包下载地址：https://www.oracle.com/database/technologies/appdev/jdbc-downloads.html 历史版本驱动包下载地址：https://repo1.maven.org/maven2/com/oracle/database/jdbc/ ojdbc8的12.2.0.1版本，获取ojdbc8.jar 说明：不支持使用新版本（如Oracle Database 21c (21.3) drivers），会导致创建作业时无法获取模式名。云数据库 PostgreSQL PostgreSQL POSTGRESQL https://mvnrepository.com/artifact/org.postgresql/postgresql PostgreSQL推荐使用42.3.4版本，获取postgresql-42.3.4.jar YASHAN YashanDB 23.2.4 https://download.yashandb.com/download YASHAN推荐使用23.2.4版本，获取： Linux X86：yashandb-23.2.4.100-linux-x86_64.tar Linux ARM：yashandb-23.2.4.100-linux-aarch64.tar 金仓数据库 POSTGRESQL https://mvnrepository.com/artifact/org.postgresql/postgresql 金仓数据库推荐使用42.2.9版本PostgreSQL驱动，获取postgresql-42.2.9.jar GaussDB数据库 POSTGRESQL GaussDB JDBC驱动请在GaussDB官方文档中搜索“JDBC包、驱动类和环境类”，然后选择实例对应版本的文档，参考文档获取gsjdbc4.jar。请从对应版本的发布包中获取gsjdbc4.jar 云数据库 SQL Server Microsoft SQL Server SQLServer https://docs.microsoft.com/en-us/sql/connect/jdbc/release-notes-for-the-jdbc-driver?view=sql-server-ver15#previous-releases 4.2版本，获取sqljdbc42.jar 达梦数据库 DM DM https://eco.dameng.com/download/ DM JDBC驱动jar包请从DM安装目录/dmdbms/drivers/jdbc中获取DmJdbcDriver18.jar。请从对应版本的安装目录中获取DmJdbcDriver18.jar Doris DORIS https://downloads.mysql.com/archives/c-j/ Doris驱动使用约束： Doris版本：2.0版本以下支持使用mysql 驱动5.x 版本。 Doris版本：使用2.0 以上版本且开启https，则cdm配置连接的驱动必须要使用mysql驱动（8.0 版本以上），该版本需要开启streamLoad 的端口才能使用。 CDM 400以上的版本默认支持写入数据使用streamLoad 方式写入数据，因此需要客户配置连接开streamLoad 端口。说明：建议使用24.4.8B040及以上版本的CDM集群，否则创建连接可能报错。 5.1.48版本，获取mysql-connector-java-5.1.48.jar POSTGRESQL_KINGBASE POSTGRESQL_KINGBASE https://www.kingbase.com.cn/rjcxxz/index.htm 与KINGBASE数据库版本配套的驱动版本 GBASE GBASE8A GBASE8S GBASE8A：https://www.gbase.cn/download/gbase-8a?category=DRIVER_PACKAGE GBASE8S：https://www.gbase.cn/download/gbase-8s-1?category=DRIVER_PACKAGE GBASE8A：GBase 8a MPP Cluster V9版本，获取gbase-connector-java-9.5.0.7-build1-bin.jar GBASE8S：GBase 8s V8.8版本，获取gbasedbtjdbc_3.5.1_3X1_3.jar

数据治理中心 DATAARTS STUDIO 在CDM集群中创建连接
数据治理中心 DATAARTS STUDIO-MRS Presto SQL:参数

参数用户可参考表1，表2和表3配置 MRS Presto SQL节点的参数。表1 属性参数参数是否必选说明 SQL或脚本是可以选择SQL语句或SQL脚本。 SQL语句单击“SQL语句”参数下的文本框，在“SQL语句”页面输入需要执行的SQL语句。 SQL脚本在“SQL脚本”参数后选择需要执行的脚本。如果脚本未创建，请参考新建脚本和开发SQL脚本先创建和开发脚本。说明：若选择SQL语句方式，数据开发模块将无法解析您输入SQL语句中携带的参数。数据连接是默认选择SQL脚本中设置的数据连接，支持修改。模式是默认选择SQL脚本中设置的数据库，支持修改。脚本参数否关联的SQL脚本如果使用了参数，此处显示参数名称，请在参数名称后的输入框配置参数值。参数值支持使用EL表达式。若关联的SQL脚本，脚本参数发生变化，可单击刷新按钮同步。节点名称是默认显示为SQL脚本的名称，支持修改。节点名称只能由字母、数字、中划线和下划线组成，并且长度为1～64个字符。说明：节点名称不得包含中文字符、超出长度限制等。如果节点名称不符合规则，将导致提交MRS作业失败。默认情况下，节点名称会与选择的脚本名称保持同步。若不需要节点名称和脚本名称同步，请参考禁用作业节点名称同步变化禁用该功能。表2 高级参数参数是否必选说明节点状态轮询时间（秒）是设置轮询时间（1~60秒），每隔x秒查询一次节点是否执行完成。节点执行的最长时间是设置节点执行的超时时间，如果节点配置了重试，在超时时间内未执行完成，该节点将会再次重试。失败重试是节点执行失败后，是否重新执行节点。是：重新执行节点，请配置以下参数。超时重试最大重试次数重试间隔时间（秒）否：默认值，不重新执行节点。说明：如果作业节点配置了重试，并且配置了超时时间，该节点执行超时后，系统支持再重试。当节点运行超时导致的失败不会重试时，您可前往“默认项设置”修改此策略。当“失败重试”配置为“是”才显示“超时重试”。当前节点失败后，后续节点处理策略是节点执行失败后的操作：终止后续节点执行计划：停止后续节点的运行，当前作业实例状态显示为“失败”。终止当前作业执行计划：停止当前作业运行，当前作业实例状态显示为“失败”。继续执行下一节点：忽略当前节点失败，当前作业实例状态显示为“忽略失败”。挂起当前作业执行计划：当前作业实例的状态为运行异常，该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。是否空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。任务组否选择任务组。任务组配置好后，可以更细粒度的进行当前任务组中的作业节点的并发数控制，比如作业中包含多个节点、补数据、重跑等场景。表3 血缘关系参数说明输入新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS， CSS ，HIVE，CUSTOM和DLI类型。确定单击“确认”，保存节点输入功能的参数配置。取消单击“取消”，取消节点输入功能的参数配置。编辑单击，修改节点输入功能的参数配置，修改完成后，请保存。删除单击，删除节点输入功能的参数配置。查看表详情单击，查看节点输入血缘关系创建数据表的详细信息。输出新建单击“新建”，在“类型”的下拉选项中选择要新建的类型。可以选择DWS，OBS， CS S，HIVE，CUSTOM，CloudTable和DLI类型。确定单击“确认”，保存节点输出功能的参数配置。取消单击“取消”，取消节点输出功能的参数配置。编辑单击，修改节点输出功能的参数配置，修改完成后，请保存。删除单击，删除节点输出功能的参数配置。查看表详情单击，查看节点输出血缘关系创建数据表的详细信息。

数据治理中心 DATAARTS STUDIO 节点参考
数据治理中心 DATAARTS STUDIO-配置DataArts Studio企业模式环境隔离:（可选）创建DLI环境隔离

（可选）创建DLI环境隔离仅Serverless服务（当前即DLI）需要配置环境隔离。参考访问DataArts Studio实例控制台，登录DataArts Studio管理控制台。在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。在管理中心页面，单击“数据源资源映射配置”，进入数据源资源映射配置页面。图1 数据源资源映射配置单击“DB配置”下的“添加”，然后分别配置开发环境数据库名和生产环境数据库名，完成后单击“保存”。通过和可以进行编辑和删除操作。数据库名需配置为已创建完成的数据库名。建议在创建数据库时，开发环境数据库名和生产环境数据库名保持一致，开发环境数据库名带上“_dev”后缀，以与生产环境数据库名进行区分。图2 DB配置单击“DLI队列配置”下的“添加”，然后分别配置开发环境队列名和生产环境队列名，完成后单击“保存”。通过和可以进行编辑和删除操作。队列名需配置为已在DLI创建完成的队列名。建议开发环境队列名和生产环境队列名保持一致，开发环境队列名带上“_dev”后缀，以与生产环境队列名进行区分。图3 DLI队列配置 “DB配置”和“DLI队列配置”完成后，DLI环境隔离创建成功。

数据治理中心 DATAARTS STUDIO 管理中心
数据治理中心 DATAARTS STUDIO-配置DataArts Studio企业模式环境隔离:DB配置

DB配置在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。在管理中心页面，单击“数据源资源映射配置”，进入数据源资源映射配置页面。单击“DB配置”下的“添加”，然后分别配置开发环境数据库名和生产环境数据库名，完成后单击“保存”。通过和可以进行编辑和删除操作。数据库名需配置为已创建完成的数据库名。建议在创建数据库时，开发环境数据库名和生产环境数据库名保持一致，开发环境数据库名带上“_dev”后缀，以与生产环境数据库名进行区分。对于DWS、MRS Hive和MRS Spark这三种数据源，如果在创建数据连接时选择同一个集群，则需要配置数据源资源映射的DB数据库映射关系进行开发生产环境隔离。图4 DB配置

数据治理中心 DATAARTS STUDIO 管理中心
数据治理中心 DATAARTS STUDIO-RDS(SAP HANA)数据连接参数说明

RDS(SAP HANA)数据连接参数说明 RDS(SAP HANA)数据连接支持连接SAP HANA数据库。表1 RDS(SAP HANA)数据连接参数是否必选说明数据连接类型是 RDS(SAP HANA)连接固定选择为RDS(SAP HANA)。数据连接名称是数据连接的名称，只能包含字母、数字、下划线和中划线，且长度不超过100个字符。描述否为更好地识别数据连接，此处加以描述信息，长度不能超过100个字符。标签否标识数据连接的属性。设置标签后，便于统一管理。说明：标签的名称，只能包含中文、英文字母、数字和下划线，不能以下划线开头，且长度不能超过100个字符。适用组件是选择此连接适用的组件。勾选组件后，才能在相应组件内使用本连接。说明：当开启离线数据集成或实时数据集成作业特性后，可勾选数据集成组件，勾选后在数据开发组件创建集成作业时支持选择本数据连接。离线数据集成或实时数据集成作业功能当前需申请白名单后才能使用。如需使用该特性，请联系客服或技术支持人员。基础与网络连通配置 IP或域名是表示通过内部网络访问关系型数据库的访问地址，可填写为IP或域名。 SAP HANA数据源，可以通过数据库管理员获取相应的访问地址。端口是关系型数据库数据源的访问端口。请确保您已在安全组规则中开放此端口，以便DataArts Studio实例可以通过该端口连接此数据库。 SAP HANA数据源，可以通过数据库管理员获取相应的访问地址。 KMS密钥是通过KMS加解密数据源认证信息，选择KMS中的任一默认密钥或自定义密钥即可。说明：第一次通过DataArts Studio或KPS使用KMS加密时，会自动生成默认密钥dlf/default或kps/default。关于默认密钥的更多信息，请参见什么是默认密钥。仅支持通过对称密钥加密，暂不支持非对称密钥。绑定Agent 是 DataArts Studio无法直接与非全托管服务进行连接。CDM集群提供了DataArts Studio与非全托管服务通信的代理，所以创建SAP HANA类型的数据连接时，请选择一个CDM集群。如果没有可用的CDM集群，请参考创建CDM集群进行创建。数据集成配置数据库名称是要连接的数据库。单次请求行数否指定单次请求获取的行数。默认1000。连接属性否可选参数。单击“添加”可增加多个指定数据源的JDBC连接器的属性（属性名称和值），参考对应数据库的JDBC连接器说明文档进行配置。引用符号否配置引用符号，例如"。数据库包围标识符。对某些数据库意味着大小写敏感，如不需用请置空。数据源驱动配置驱动程序名称是 com.sap.db.jdbc.Driver：连接RDS for SAP HANA数据源时，选择此驱动程序名称。驱动文件路径是驱动文件在OBS上的路径。需要您自行到官网下载.jar格式驱动并上传至OBS中。 SAP HANA驱动获取地址：https://repo1.maven.org/maven2/com/sap/cloud/db/jdbc/ngdbc/，建议2.18.13版本。说明：驱动文件所在的OBS路径中不能包含中文。出于安全考虑，当前系统会对所选择的驱动文件校验其SHA512值和字节大小。如不在允许清单中，则会提示报错，推荐您使用建议版本的驱动文件，或联系客服或技术支持人员。如果需要更新驱动文件，则需要先在数据集成页面重启CDM集群，然后通过编辑数据连接的方式重新选择新版本驱动，更新驱动才能生效。数据源认证及其他功能配置用户名是数据库的用户名，创建集群的时候，输入的用户名。密码是数据库的访问密码，创建集群的时候，输入的密码。父主题：配置DataArts Studio数据连接参数

数据治理中心 DATAARTS STUDIO 配置DataArts Studio数据连接参数
代码检查 CODEARTS CHECK-HE2E DevOps实践：代码检查:预置任务简介

预置任务简介样例项目中预置了以下4个代码检查任务。表1 预置任务预置任务任务说明 phoenix-codecheck-worker 检查Worker功能对应代码的任务。 phoenix-codecheck-result 检查Result功能对应代码的任务。 phoenix-codecheck-vote 检查Vote功能对应代码的任务。 phoenix-sample-javas 检查整个代码仓库对应的JavaScript代码的任务。本章节以任务“phoenix-codecheck-worker”为例进行讲解。

代码检查 CODEARTS CHECK
代码检查 CODEARTS CHECK-基于第三方引擎执行代码检查:操作流程

操作流程表1 操作流程流程说明新建项目为本实践新建项目。新建自定义执行机资源池为本实践新建所需的自定义执行机资源池。开发UCCP插件开发UCCP插件，用于导入自定义规则。将第三方引擎和插件导入执行机将第三方引擎和插件导入执行机。上传自定义规则在CodeArts Check中服务上传自定义规则。新建CodeArts Repo代码仓为本实践新建存储代码的代码仓。创建代码检查任务为本实践创建代码检查任务。配置代码检查任务配置代码检查任务使用自定义执行机和自定义规则。查看检查结果查看代码检查结果。

代码检查 CODEARTS CHECK
代码检查 CODEARTS CHECK-基于第三方引擎执行代码检查:创建代码检查任务

创建代码检查任务在代码检查任务列表页，单击“新建任务”，按照如下表格配置参数。表4 代码检查任务参数说明参数说明归属项目创建代码检查任务所属项目中创建的项目名称“check-bestpractice”。默认填写，无需配置。代码源选择需要检查的代码来源。选择“Repo”。任务名称代码检查任务名称，可自定义。例如：CheckTask01。仓库选择新建CodeArts Repo代码仓中创建的代码仓“custom_repo”。分支保持默认“master”即可。检查语言选择“Java”。单击“新建任务”，完成代码检查任务的创建。

代码检查 CODEARTS CHECK
代码检查 CODEARTS CHECK-基于第三方引擎执行代码检查:将第三方引擎和插件导入执行机

将第三方引擎和插件导入执行机进入执行机“/opt/cloud/”目录，执行mkdir -p /opt/cloud/third_party_tools/v1/plugins命令，创建“third_party_tools/v1/plugins”目录。在自定义执行上将开发完成的uccp插件放入工具插件路径“/opt/cloud/third_party_tools/v1/plugins”，然后执行以下命令更改权限。 chmod -R 777 [所换包的路径] & chown -R slave1:slave1 [所换包的路径] & 将工具包放入工具路径“/opt/cloud/third_party_tools/v1/tools”，然后执行以下命令更改权限。 chmod -R 777 [所换包的路径] & chown -R slave1:slave1 [所换包的路径] & 上述插件路径和工具路径中的“v1”代表“版本号”。可以同时存在多个版本，例如“/opt/cloud/third_party_tools/v1/plugins”、“/opt/cloud/third_party_tools/v2/plugins”、“/opt/cloud/third_party_tools/v3/plugins”。在执行任务时，会选择最大的版本号执行任务。例如在这里会选择/opt/cloud/third_party_tools/v3/plugins下的插件来执行任务。此规则同样适用于“tools”。

代码检查 CODEARTS CHECK
代码检查 CODEARTS CHECK-基于第三方引擎执行代码检查:前提准备

前提准备联系技术支持获取UCCP插件的代码开发样例包。已参考自定义购买ECS购买本实践使用的弹性云服务器。代码检查服务接入的自定义执行机只支持EulerOS2.5操作系统。接入的自定义执行机中已安装Git-lfs，若未安装，可参考以下示例安装Git-lfs。本示例以使用命令的方式安装为例。在执行机上执行以下命令。 # 下载 wget -O git-lfs.tar.gz https://github.com/git-lfs/git-lfs/releases/download/v3.4.1/git-lfs-linux-amd64-v3.4.1.tar.gz # 解压 tar -zxvf git-lfs.tar.gz # 进入解压后的目录 cd git-lfs-3.4.1 # 执行安装脚本 sh install.sh # 验证 git lfs version 已挂载云硬盘。

代码检查 CODEARTS CHECK
MAPREDUCE服务 MRS-StarRocks:StarRocks架构

StarRocks架构 StarRocks整体架构如下图所示，FE和BE节点可以水平无限扩展。图1 StarRocks架构表1 StarRocks节点及角色说明名称说明 Client Application StarRocks兼容MySQL协议，支持标准SQL语法，用户可通过各类MySQL客户端和常用BI工具对接。 SRFE StarRocks的前端节点，主要负责管理元数据、管理客户端连接、进行查询规划、查询调度等工作。 SRBE StarRocks的后端节点，主要负责数据存储和SQL计算等工作。 Leader Leader从Follower中自动选出，FE Leader提供元数据读写服务，Follower和Observer只有读取权限，无写入权限。 Follower Follower只有元数据读取权限，无写入权限，Follower参与Leader选举。 Observer Observer主要用于扩展集群的查询并发能力，可选部署。Observer不参与选主，不会增加集群的选主压力。

MAPREDUCE服务 MRS 组件介绍
MAPREDUCE服务 MRS-StarRocks:StarRocks简介

StarRocks简介 StarRocks是一款高性能分析型数据仓库，使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。 StarRocks既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖上各种格式的数据。 StarRocks兼容MySQL协议，可使用MySQL客户端和常用BI工具对接进行数据分析，同时StarRocks具备水平扩展、高可用、高可靠、易运维等特性，广泛应用于实时数仓、OLAP报表、数据湖分析等场景。更多相关介绍请参见StarRocks。该组件当前为公测阶段，若需使用需联系技术支持申请白名单开通。

MAPREDUCE服务 MRS 组件介绍
MAPREDUCE服务 MRS-StarRocks:StarRocks基本概念

StarRocks基本概念在StarRocks中，数据都以表（Table）的形式进行逻辑上的描述。 StarRocks中的表由行和列构成，每行数据对应用户一条记录，每列数据具有相同的数据类型。所有数据行的列数相同，可以动态增删列。在StarRocks中，一张表的列可以分为维度列（也称为Key列）和指标列（也称为Value列），维度列用于分组和排序，指标列的值可以通过聚合函数sum、count、min、max、hll_union_agg和bitmap_union等累加起来。列式存储在StarRocks中，表数据按列存储。物理上，一列数据会经过分块编码、压缩等操作，然后持久化存储到非易失设备上。但在逻辑上，一列数据可以看成是由相同类型的元素构成的一个数组，一行数据的所有列值在各自的数组中按照列顺序排列，即拥有相同的数组下标。数组下标是隐式的，不需要存储。表中所有的行按照维度列，做多重排序，排序后的位置就是该行的行号。索引 StarRocks通过前缀索引 (Prefix Index) 和列级索引，能够快速找到目标行所在数据块的起始行号。加速处理 StarRocks通过预先聚合、分区分桶、物化视图、列级索引等机制实现数据的加速处理。数据模型 StarRocks支持四种数据模型，分别是明细模型（Duplicate Key Model）、聚合模型（Aggregate Key Model）、更新模型（Unique Key Model）和主键模型（Primary Key Model）。这四种数据模型能够支持多种数据分析场景，例如日志分析、数据汇总分析、实时分析等。创建表时，您需要指定数据模型（Data Model），当数据导入至数据模型时，StarRocks会按照排序键对数据进行排序、处理和存储。四种数据模型介绍如下：明细模型明细模型是StarRocks默认的建表模型。如果在建表时未指定任何模型，默认创建明细类型的表。聚合模型建表时，支持定义排序键和指标列，并为指标列指定聚合函数。当多条数据具有相同的排序键时，指标列会进行聚合。在分析统计和汇总数据时，聚合模型能够减少查询时所需要处理的数据，提升查询效率。更新模型建表时，支持定义主键和指标列，查询时返回主键相同的一组数据中的最新数据。相对于明细模型，更新模型简化了数据导入流程，能够更好地支撑实时和频繁更新的场景。主键模型主键模型支持分别定义主键和排序键。数据导入至主键模型的表中时，先按照排序键排序后再存储。查询时返回主键相同的一组数据中的最新数据。相对于更新模型，主键模型在查询时不需要执行聚合操作，并且支持谓词和索引下推，能够在支持实时和频繁更新等场景的同时，提供高效查询。数据分布建表时，您可以通过设置合理的分区和分桶，实现数据均匀分布和查询性能提升。数据均匀分布是指数据按照一定规则划分为子集，并且均衡地分布在不同节点上。查询时能够有效裁剪数据扫描量，最大限度地利用集群的并发性能，从而提升查询性能。

MAPREDUCE服务 MRS 组件介绍
MAPREDUCE服务 MRS-MRS组件版本一览表:组件及版本号信息（已下线版本）

组件及版本号信息（已下线版本） MRS已下线集群版本配套的组件及版本号信息如表2所示。表2 MRS组件版本信息（已下线版本） MRS支持的组件 MRS 1.5.1 MRS 1.6.3 MRS 1.7.2 MRS 2.0.5（适用于MRS 2.0.x版本） MRS 1.8.10（适用于MRS 1.8.x） MRS 2.1.0（适用于MRS 2.1.x） MRS 3.0.5 Alluxio - - - - - - 2.3.0 CarbonData 1.3.1 1.3.1 1.3.1 1.5.1 1.6.1(MRS 1.8.10) 1.3.1(MRS 1.8.7及之前) 1.6.1（MRS 2.1.0） 2.0.0(MRS 2.1.1及之后) 2.0.1 ClickHouse - - - - - - 21.3.4.25 DBService 1.0.0 1.0.0 1.0.0 1.0.0 1.0.0 1.0.0 2.7.0 Flink - - - - 1.7.0 1.7.0 1.10.0 Flume 1.6.0 1.6.0 1.6.0 1.6.0 1.6.0 1.6.0 1.9.0 HBase 1.0.2 1.3.1 1.3.1 2.1.1 1.3.1 2.1.1 2.2.3 HDFS 2.7.2 2.7.2 2.8.3 3.1.1 2.8.3 3.1.1 3.1.1 Hive 1.2.1 1.2.1 1.2.1 3.1.0 1.2.1 3.1.0 3.1.0 Hue 3.11.0 3.11.0 3.11.0 3.11.0 3.11.0 3.11.0 4.7.0 Impala - - - - - 3.2.0 3.4.0 Kafka 0.10.0.0 0.10.0.0 0.10.2.0 1.1.0 1.1.0 1.1.0 2.11-2.4.0 KafkaManager - - - - 1.3.3.1 - - KrbServer 1.10.7 1.10.7 1.10.7 1.15.2 1.10.7 1.15.2 1.17 Kudu - - - - - 1.9.0 1.12.1 LdapServer 1.0.0 1.0.0 1.0.0 1.0.0 1.0.0 1.0.0 2.7.0 Loader 2.0.0 2.0.0 2.0.0 2.0.0 2.0.0 2.0.0 1.99.3 MapReduce 2.7.2 2.7.2 2.8.3 3.1.1 2.8.3 3.1.1 3.1.1 Oozie - - - - - - 5.1.0 Opentsdb - - - - 2.3.0 - - Presto - - - 308 0.215 308 333 Phoenix - - - - - - 5.0.0 Ranger - - - - - - 2.0.0 Spark 2.1.0 2.1.0 2.2.1 2.3.2 2.2.1 2.3.2 - Spark2x - - - - - - 2.4.5 Storm 1.0.2 1.0.2 1.0.2 1.2.1 1.2.1 1.2.1 1.2.1 Tez - - - 0.9.1 - 0.9.1 0.9.2 YARN 2.7.2 2.7.2 2.8.3 3.1.1 2.8.3 3.1.1 3.1.1 ZooKeeper 3.5.1 3.5.1 3.5.1 3.5.1 3.5.1 3.5.1 3.5.6 MRS Manager 1.5.1 1.6.3 1.7.2 2.0.5 1.8.10 2.1.0 - FusionInsight Manager - - - - - - 8.0.2.1

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS组件版本一览表:组件及版本号信息

组件及版本号信息 MRS各集群版本配套的组件及版本号信息如表1所示。 Hadoop组件包含HDFS、Yarn、Mapreduce服务，DBService、KrbServer及LdapServer等集群内部使用的组件，在创建集群时的组件列表中不呈现。 MRS组件的版本号通常与组件开源版本号保持一致。 MRS集群内各组件不支持单独升级，请根据实际需要选择对应版本的集群。 LTS（Long Term Support）版本集群与普通版本集群区别可参考MRS集群版本说明。部分集群版本为受限白名单方式开放，如果无法直接购买需联系技术支持申请白名单开通。表1 MRS组件版本信息 MRS支持的组件 MRS 1.9.x MRS 3.1.0 MRS 3.1.2-LTS.x MRS 3.1.5 MRS 3.2.0-LTS.x MRS 3.3.0-LTS.x MRS 3.3.1-LTS.x MRS 3.5.0-LTS.x Alluxio 2.0.1 - - - - - - - ClickHouse - 21.3.4.25 21.3.4.25 21.3.4.25 22.3.2.2 23.3.2.37 23.3.2.37 23.3.2.37 Doris - - - - - 1.2.3 2.0.5 2.0.13 DBService 1.0.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 Flink 1.7.0 1.12.0 1.12.2 1.12.2 1.15.0 1.15.0 1.17.1 1.17.1 Flume 1.6.0 1.9.0 1.9.0 1.9.0 1.9.0 1.11.0 1.11.0 1.11.0 Guardian - - - 0.1.0 - 0.1.0 0.1.0 0.1.0 HBase 1.3.1 2.2.3 2.2.3 2.2.3 2.2.3 2.4.14 2.4.14 2.4.14 HDFS 2.8.3 3.1.1 3.1.1 3.1.1 3.3.1 3.3.1 3.3.1 3.3.1 HetuEngine - - 1.2.0 - 1.2.0 2.0.0 2.0.0 2.1.0 Hive 2.3.3 3.1.0 3.1.0 3.1.0 3.1.0 3.1.0 3.1.0 3.1.0 Hudi（集成在Spark中） - 0.7.0 0.9.0 0.9.0 0.11.0 0.11.0 0.11.0 0.15.0 Hue 3.11.0 4.7.0 4.7.0 4.7.0 4.7.0 - - - Impala - 3.4.0 - 3.4.0 - - 4.3.0 4.3.0 IoTDB - - - - 0.14.0 - - - Kafka 1.1.0 2.11-2.4.0 2.11-2.4.0 2.11-2.4.0 2.11-2.4.0 2.12-2.8.1 2.12-3.6.1 2.12-3.6.1 KafkaManager 1.3.3.1 - - - - - - - KrbServer 1.15.2 1.17 1.18 1.18 1.18 1.20 1.20 1.20 Kudu - 1.12.1 - 1.12.1 - - 1.17.0 1.17.0 LdapServer 1.0.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 2.7.0 Loader 2.0.0 - 1.99.3 - 1.99.3 1.99.3 - - MapReduce 2.8.3 3.1.1 3.1.1 3.1.1 3.3.1 3.3.1 3.3.1 3.3.1 Oozie - 5.1.0 5.1.0 5.1.0 5.1.0 5.1.0 5.1.0 5.1.0 Opentsdb 2.3.0 - - - - - - - Presto 0.216 333 - 333 - - - - Phoenix（集成在HBase中） - 5.0.0 5.0.0 5.0.0 5.0.0 5.1.2 5.1.2 5.1.2 Ranger 1.0.1 2.0.0 2.0.0 2.0.0 2.0.0 2.3.0 2.3.0 2.3.0 Spark/Spark2x 2.2.2 2.4.5 3.1.1 3.1.1 3.1.1 3.3.1 3.3.1 3.3.1 Sqoop - 1.4.7 - 1.4.7 - - 1.4.7 1.4.7 Storm 1.2.1 - - - - - - - Tez 0.9.1 0.9.2 0.9.2 0.9.2 0.9.2 0.10.2 0.10.2 0.10.2 Yarn 2.8.3 3.1.1 3.1.1 3.1.1 3.3.1 3.3.1 3.3.1 3.3.1 ZooKeeper 3.5.1 3.5.6 3.6.3 3.6.3 3.6.3 3.8.1 3.8.1 3.8.1 MRS Manager 1.9.2 8.1.0 8.1.2.x 8.1.2 8.2.0.x 8.3.0.x 8.3.1.x 8.5.0.x

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS 3.1.5版本说明:更新内容

更新内容服务模块主要变更点 CarbonData 升级到2.2.0版本。 ClickHouse 支持通过FusionInsight Manager备份恢复元数据及业务数据。 Flink 升级到1.12.2版本。 FlinkServer支持上传、管理UDF。 Guardian 新增组件，支持存算分离场景下集群外客户端委托功能。 Hadoop 普通集群访问HDFS Web UI需要进行CAS认证。 Hudi 升级到0.9.0版本。 Impala 支持在MRS Manager页面上进行Impala SQL作业管理。 Spark2x 升级到3.1.1版本。 ZooKeeper 升级到3.6.3版本。管理控制台支持补丁在线推送及更新。支持包周期集群中的部分节点退订。作业提交API新增支持FlinkSQL作业类型。支持指定资源池的弹性伸缩能力。 Master主机规格升级功能支持多Master节点集群。 Bootstrap脚本支持以root用户身份执行。集群主机系统盘支持最小100GB容量，数据盘支持最小200GB容量。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS 3.1.5版本说明:组件版本信息

组件版本信息组件版本 CarbonData 2.2.0 ClickHouse 21.3.4.25 DBService 2.7.0 Flink 1.12.2 Flume 1.9.0 Guardian 0.1.0 HBase 2.2.3 HDFS 3.1.1 Hive 3.1.0 Hudi（集成在Spark2x中） 0.9.0 Hue 4.7.0 Impala 3.4.0 Kafka 2.11-2.4.0 KrbServer 1.18 Kudu 1.12.1 LdapServer 2.7.0 Mapreduce 3.1.1 Oozie 5.1.0 Presto 333 Phoenix（集成在HBase中） 5.0.0 Ranger 2.0.0 Spark2x 3.1.1 Sqoop 1.4.7 Tez 0.9.2 Yarn 3.1.1 ZooKeeper 3.6.3

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS 3.2.0-LTS.1版本说明:组件版本信息

组件版本信息表1 MRS组件版本信息组件版本 CarbonData 2.2.0 ClickHouse 22.3.2.2 DBService 2.7.0 Flink 1.15.0 Flume 1.9.0 HBase 2.2.3 HDFS 3.3.1 HetuEngine 1.2.0 Hive 3.1.0 Hudi（集成在Spark2x中） 0.11.0 Hue 4.7.0 IoTDB 0.14.0 Kafka 2.11-2.4.0 KrbServer 1.18 LdapServer 2.7.0 Loader 1.99.3 Mapreduce 3.3.1 Oozie 5.1.0 Phoenix（集成在HBase中） 5.0.0 Ranger 2.0.0 Spark2x 3.1.1 Tez 0.9.2 Yarn 3.3.1 ZooKeeper 3.6.3 FusionInsight Manager 8.2.0.1

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS 3.2.0-LTS.1版本说明:更新内容

更新内容服务模块主要变更点 ClickHouse 升级到22.3.2.2版本。 ClickHouse支持多租户，通过CPU优先级和内存限额分配资源。 Flink 升级到1.15.0版本。 FlinkServer支持审计日志。 Hadoop 升级到3.3.1版本。 HetuEngine HetuEngine支持物化视图及自动刷新。 HetuEngine支持配置IoTDB数据源。 Hudi 升级到0.11.0版本。 IoTDB 新增组件，一体化收集、存储、管理与分析物联网时序数据的服务。集群管理支持补丁在线推送及更新。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS 3.1.2-LTS.3版本说明:组件版本信息

组件版本信息表1 MRS组件版本信息组件版本 CarbonData 2.2.0 ClickHouse 21.3.4.25 DBService 2.7.0 Flink 1.12.2 Flume 1.9.0 HBase 2.2.3 HDFS 3.1.1 HetuEngine 1.2.0 Hive 3.1.0 Hudi（集成在Spark2x中） 0.9.0 Hue 4.7.0 Kafka 2.11-2.4.0 KrbServer 1.18 LdapServer 2.7.0 Loader 1.99.3 Mapreduce 3.1.1 Oozie 5.1.0 Phoenix（集成在HBase中） 5.0.0 Ranger 2.0.0 Spark2x 3.1.1 Tez 0.9.2 Yarn 3.1.1 ZooKeeper 3.6.3 FusionInsight Manager 8.1.2

MAPREDUCE服务 MRS 版本支持公告
AI开发平台MODELARTS-MaaS大模型即服务平台功能介绍

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支持大模型定制开发，让模型应用与业务系统无缝衔接，显著降低了企业AI落地的成本与难度。业界主流开源大模型覆盖全 MaaS集成了业界主流开源大模型，含DeepSeek、Llama、Baichuan、Yi、Qwen等模型系列，所有的模型均基于昇腾AI云服务进行全面适配和优化，使得精度和性能显著提升。开发者无需从零开始构建模型，只需选择合适的预训练模型进行微调或直接应用，减轻了模型集成的负担。零代码、免配置、免调优模型开发平台结合与100+客户适配、调优开源大模型的行业实践经验，沉淀了大量适配昇腾，和调优推理参数的最佳实践。通过为客户提供一键式训练、自动超参调优等能力，和高度自动化的参数配置机制，使得模型优化过程不再依赖于手动尝试，显著缩短了从模型开发到部署的周期，确保了模型在各类应用场景下的高性能表现，让客户能够更加聚焦于业务逻辑与创新应用的设计。资源易获取，按需收费，按需扩缩，支撑故障快恢与断点续训企业在具体使用大模型接入企业应用系统的时候，不仅要考虑模型体验情况，还需要考虑模型具体的精度效果，和实际应用成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云的算力底座能力，提供了若干保障客户商业应用的关键能力。保障客户系统应用大模型的成本效率，按需收费，按需扩缩的灵活成本效益资源配置方案，有效避免了资源闲置与浪费，降低了进入AI领域的门槛。架构强调高可用性，多数据中心部署确保数据与任务备份，即使遭遇故障，也能无缝切换至备用系统，维持模型训练不中断，保护长期项目免受时间与资源损耗，确保进展与收益。大模型应用开发，帮助开发者快速构建智能Agents 在企业中，项目级复杂任务通常需要理解任务并拆解成多个问题再进行决策，然后调用多个子系统去执行。MaaS基于多个优质昇腾云开源大模型，提供优质Prompt模板，让大模型准确理解业务意图，分解复杂任务，沉淀出丰富的多个智能Agent，帮助企业快速智能构建和部署大模型应用。父主题：功能介绍

AI开发平台MODELARTS 功能介绍
AI开发平台MODELARTS-查看日志和性能

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size*seq_length/(总卡数*elapsed time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。图2 查看日志和性能父主题：主流开源大模型基于Standard+OBS+SFS适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）

AI开发平台MODELARTS
AI开发平台MODELARTS-查看日志和性能

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global batch size×seq_length/(总卡数×elapsed time per iteration)×1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。图2 查看日志和性能训练结束之后，在保存路径下生成了如下几个文件： |──converted_hf2mg_weight_TP${TP}PP${PP} # 训练过程Megatron格式权重 |──converted_mg2hf_weight # 训练完成转换为HF格式权重目录，只有配置了自动转换才有内容，否则为空 |──logs # 训练过程日志 |──preprocessed_data # 训练过程预处理后数据集目录 |──saved_checkpoints # 训练生成权重文件父主题：主流开源大模型基于Standard+OBS适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）

AI开发平台MODELARTS
AI开发平台MODELARTS-查看日志和性能:查看性能

查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：global batch size*seq_length/(总卡数*elapsed time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，具体参数查看表1。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）

AI开发平台MODELARTS
AI开发平台MODELARTS-查看日志和性能:查看日志

查看日志查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

AI开发平台MODELARTS
AI开发平台MODELARTS-模型最小卡数配置:模型最小卡数配置

模型最小卡数配置不同模型推荐的训练参数和计算规格要求如表1所示，目前仅提供微调（SFT）及训练（PT）阶段卡数配置。一般Snt9B规格为单节点8卡，Snt9B23规格为单机8卡=16*DIE，其中1*DIE等效于Snt9B中的1卡，Snt9B23规格实际训练过程中设置并行策略时2*DIE为最小单位。 * 表格中“-”代表不支持，规格与卡数中的 4*Ascend表示4卡在Snt9B中表示4卡，Snt9B23表示4*DIE，以此类推。表1 模型最小卡数配置支持模型参数量训练策略类型序列长度SEQ_LEN MindSpeed-LLM规格卡数/DIE Llama-Factory规格卡数/DIE Snt9B Snt9B23 Snt9B Snt9B23 llama3.1-8b full 4096/8192 4*Ascend 8*Ascend lora 4*Ascend 1*Ascend 2*Ascend llama3.1-70b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend llama3.2-1b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 1*Ascend llama3.2-3b full 4096/8192 2*Ascend 4*Ascend lora 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2-1.5b full/lora 4096/8192 1*Ascend 2*Ascend - qwen2-7b full 4096 4*Ascend 1*Ascend 2*Ascend lora 4*Ascend 8*Ascend full 8192 8*Ascend 1*Ascend 2*Ascend lora 8*Ascend 8*Ascend qwen2-72b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend qwen2.5-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2.5-7b full 4096 4*Ascend 8*Ascend lora 2*Ascend 1*Ascend 2*Ascend full 8192 8*Ascend 8*Ascend lora 2*Ascend 1*Ascend 2*Ascend qwen2.5-14b full 4096 8*Ascend 8*Ascend lora 4*Ascend 4*Ascend full 8192 8*Ascend 16*Ascend lora 8*Ascend 4*Ascend qwen2.5-32b full 4096 16*Ascend 32*Ascend lora 16*Ascend 8*Ascend full 8192 16*Ascend 32*Ascend lora 16*Ascend 16*Ascend qwen2.5-72b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend qwen2vl-2b full 4096/8192 - 2*Ascend lora 4096/8192 - 1*Ascend qwen2vl-7b full 4096/8192 - 8*Ascend lora 4096/8192 - 1*Ascend 2*Ascend qwen2vl-72b full 1024 - 32*Ascend lora 1024 - 16*Ascend qwen2_5_vl-7b full 4096/8192 - 8*Ascend lora 4096/8192 - 1*Ascend 2*Ascend qwen2_5_vl-72b full 4096 - 32*Ascend lora 4096 - 16*Ascend glm4-9b full 4096/8192 8*Ascend 8*Ascend lora 4096/8192 2*Ascend 1*Ascend 2*Ascend mixtral-8x7b full 4096/8192 16*Ascend - DeepSeek-V3/R1 full 4096 512*Ascend - lora 64*Ascend - 1. LLama-Factory使用的zero并行会将优化器、梯度、权重在多卡上切分，因此集群规模的大小会影响最佳配置与性能。 2. 当mindspeed-llm上开启分布式优化器并行时，优化器参数会在集群所有机器上切分共享，因此最优配置会和卡数相关。 3. 当前benchmark是综合考虑了最小可运行卡数和最优性能平衡情况下测试出的配置，实际情况中可以根据集群规模大小和性能取舍进行参数调整。

AI开发平台MODELARTS 训练服务配置说明
AI开发平台MODELARTS-准备数据、权重和代码:OBS桶

OBS桶本地完成代码包AscendCloud-LLM-xxx.zip的解压。 # Linux系统 unzip AscendCloud-*.zip && unzip AscendCloud-LLM-*.zip && unzip ./llm_train/AscendFactory/data.tgz 上传权重。获取对应模型的权重文件，获取链接参考支持的模型列表，并检查权重文件、大小是否完整。本地修改权重（tokenizer）文件，以下模型需修改，根据所选框架及模型修改相应文件，详情参考tokenizer文件说明 Llama-Factory：glm4-9B模型在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。利用OBS-Browser+工具将下载好的权重文件上传至创建的文件夹目录下。得到OBS下数据集结构，此处以llama2-13B为例（权重文件可能变化，以下仅为举例）。上传代码及数据。准备数据集，例如下载样例数据集或者在本地按照固定格式处理好自己的数据集（可参考数据说明），并将数据集存放至本地llm_train/AscendFactory/data目录下。是否使用Llama-Factory框架训练。是，更新data/dataset_info.json文件。如使用以下示例数据集则命令如下。关于数据集文件格式及配置，更多样例格式信息请参考README_zh.md 的内容。 vim dataset_info.json 新加配置参数如下： "alpaca_gpt4_data": { "file_name": "alpaca_gpt4_data.json" }, 样例截图：否，使用MindSpeed-LLM框架，执行下一步。利用OBS Browser+工具将llm_train文件夹上传至OBS中

AI开发平台MODELARTS ModelArts Standard
AI开发平台MODELARTS-场景介绍:操作流程

操作流程流程图图1 训练流程图表2 操作任务流程说明阶段任务说明准备工作准备环境本教程案例是基于ModelArts Lite k8s Cluster运行的，需要购买并开通k8s Cluster资源。准备代码准备AscendFactory训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。执行训练任务（预训练/微调）执行训练任务（推荐）介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。查看训练结果查看日志和性能查看训练后的日志，训练的性能结果。

AI开发平台MODELARTS 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）
AI开发平台MODELARTS-场景介绍:训练支持的模型列表

训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat baichuan2-7b https://huggingface.co/baichuan-inc/Baichuan2-7B-Base/tree/main 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 26 Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct 27 qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 28 qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct 29 qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct 30 qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct 31 llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct 32 llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

AI开发平台MODELARTS 主流开源大模型基于Lite Cluster适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！