搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

context-parallel-size 。（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

context-parallel-size 。（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询支持的服务部署规格 - AI开发平台ModelArts

source_type String 此规格应用于模型的类型，取值为空或auto，默认为空，代表是用户自己产生的模型；取值为auto时，代表是自动学习训练的模型，计费方式有差别。 is_free Boolean 当前规格是否是免费规格，“true”表示是免费规格。 over_quota Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
调用MaaS部署的模型服务 - AI开发平台ModelArts

最多支持创建5个密钥，密钥只会在新建后显示一次，请妥善保存。当密钥丢失将无法找回，请新建API Key获取新的访问密钥。步骤二：调用MaaS模型服务进行预测在ModelArts Studio左侧导航栏中，选择“模型部署”进入服务列表。选择“我的服务”页签。选择要调用的服务，单击操作列的“更多

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
部署在线服务 - AI开发平台ModelArts

多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 { "service_name": "mnist", "description":

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
迁移过程使用工具概览 - AI开发平台ModelArts

运行内置的知识库进行自动优化，以提升模型的运行效率。自动高性能算子生成工具AKG AKG（Auto Kernel Generator）对深度神经网络中的算子进行优化，并提供特定模式下的算子自动融合功能。提升在昇腾硬件后端上运行网络的性能。 AKG由三个基本的优化模块组成：规范化、自动调度和后端优化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
执行训练任务（推荐） - AI开发平台ModelArts

768长度，则推荐增加此值（≥ 2）。（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 seq-length 4096 要处理的最大序列长度。 convert_mg2hf_at_last true

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务介绍如何在创建AI应用，部署并启动推理服务，在线预测在线服务。父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
advisor调优总体步骤 - AI开发平台ModelArts

MatMul两类算子，导致这两类算子的计算性能劣化，从而影响了整体的训练性能。按照html中给出的建议，需要检查8号卡和60号卡对应节点的温度和最大功率。图5 性能分析报告展示图6 计算维度节点降频问题图7 节点降频及其影响算子父主题：基于advisor的昇腾训练性能自助调优指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
解析Pascal VOC文件 - AI开发平台ModelArts

Object 数据源信息，详细请见表3。 width Long 图片长度。 height Long 图片高度。 depth Long 图片深度。 segmented String 分割。 mask_source String 图像分割得到的mask文件的云存储路径，目前只支持PNG格式。

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
精度问题概述 - AI开发平台ModelArts

本指南提供了算子问题定位工具集详细的使用场景和使用步骤，方便用户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

确保此OBS桶的加密功能关闭。如果此OBS桶为加密桶，可单击“默认加密”选项进行修改。创建OBS桶时，桶的存储类别请勿选择“归档存储”和“深度归档存储”，归档存储的OBS桶会导致模型训练失败。图1 查看OBS桶是否加密检查OBS文件是否为加密文件进入OBS管理控制台，单击桶名称进入概览页。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
管理训练容器环境变量 - AI开发平台ModelArts

“MA_NUM_GPUS=8” MA_TASK_NAME 作业容器的角色名，例如： MindSpore、PyTorch为worker 强化学习引擎为learner，worker TensorFlow为ps，worker “MA_TASK_NAME=worker” MA_NUM_HOSTS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

py，NPU推理脚本内容参见附录1：在NPU上运行infer.py脚本内容。 python infer.py 运行结束后，会打印所有图片预测的平均时延。 NPU上运行后，结果会保存在/home/ma-user/result.txt下。如果在GPU上运行，推荐直接在GPU宿主机

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
pipeline代码适配 - AI开发平台ModelArts

eline 模型初始化使用MindSpore Lite进行推理时一般需要先设置目标设备的上下文信息，然后构建推理模型，获取输入数据，模型预测并得到最终的结果。一个基础的推理框架写法如下所示： # base_mslite_demo.py import mindspore_lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
设置断点续训练 - AI开发平台ModelArts

# 加载断点 checkpoint = torch.load(local_ckpt_file) # 加载模型可学习参数 model.load_state_dict(checkpoint['net']) # 加载优化器参数 optimizer

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型训练存储加速 - AI开发平台ModelArts

# 加载断点 checkpoint = torch.load(local_ckpt_file) # 加载模型可学习参数 model.load_state_dict(checkpoint['net']) # 加载优化器参数 optimizer

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

从第三方元模型导入，则为空，默认值为空。 source_type 否 String 模型来源的类型，当前仅可取值auto，用于区分通过自动学习部署过来的模型（不提供模型下载功能）；用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 deploy_timeout_in_seconds 否 Integer 单个模型实例部署的超时时间。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 438

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

解析Pascal VOC文件 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

moondream2基于Lite Server适配PyTorch NPU推理指导 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线