搜索_华为云

推理精度测试 - AI开发平台ModelArts

benchmark_type=eval bash -x opencompass.sh 这一步可以在客户端显示运行过程，通过run.py运行。如果同时运行多个数据集，需要将不同数据集通过空格分开，加入到eval_datasets中，比如eval_datasets=ceval_gen mmlu_gen。运行命令如下所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

speed。 -v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。父主题：历史待下线案例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。图1 GPU规格运行日志信息图2 CPU规格运行日志信息父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
断点续训练 - AI开发平台ModelArts

WORK_DIR=/home/ma-user/ws sh scripts/llama2/llama2.sh 以上命令多台机器执行时，只有NODE_RANK的节点ID不同，其他参数都保持一致。其中MASTER_ADDR、 NODE_RANK、 NODE_RANK、MODEL_TYPE 、RUN_TYPE、

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调训练 - AI开发平台ModelArts

表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE GeneralInstructionHandler 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

32k）训练内容，例如新增参数context-parallel-size。文档中针对数据集预处理时，handler-name参数的说明，新增不同 handler 对训练数据的拼接和推理prompt的构造等说明。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

Step1 准备环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

Step1 检查环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Lite Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
训练参数配置说明【旧】 - AI开发平台ModelArts

PU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

PU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

PU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

PU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
PD分离性能调优工具使用说明 - AI开发平台ModelArts

昇腾版本号，仅用于生成输出结果的文件名，可以自定义字符串，不影响运行 use_pd_separate 分离部署相关的SLO指标统计开关根据不同场景，需要调整以上参数，其中request_rate变化较大，刚开始测试时可以只设置单个值，且request_num设置较小，查看输出结果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 分离部署
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell登录容器镜像中调试。在Cloud Shell中调试多节点训练作业时，需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令，否则任务会处于等待其他节点的状态。如何防止Cloud Shell的Session断开如果需要长时间运行某一个任务，为

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
预训练任务 - AI开发平台ModelArts

WORK_DIR=/home/ma-user/ws sh scripts/glm3/glm3_base.sh 以上命令多台机器执行时，只有${NODE_RANK}：节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、NODE_RANK、MODEL_TYPE 、RUN_TYPE、DATASET_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
包年/包月 - AI开发平台ModelArts
包年/包月 - AI开发平台ModelArts

的包年/包月资源执行任何操作。保留期到期后，如果包年/包月资源池仍未续费，那么计算资源将被释放，数据无法恢复。华为云根据客户等级定义了不同客户的宽限期和保留期时长。关于续费的详细介绍请参见续费概述。父主题：计费模式

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
查询服务更新日志 - AI开发平台ModelArts

量权重，仅当infer_type为real-time时需要配置，多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。训练作业执行成功后，日志信息如下所示。图1 GPU规格运行日志信息父主题：制作自定义镜像用于训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

确保容器可以访问公网。 Step1 准备环境请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理

总条数： 787

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

Open-Sora 1.0基于Lite Server适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

PD分离性能调优工具使用说明 - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

包年/包月 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线