搜索_华为云

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

包放到模型所在的OBS目录下）。查看待安装包的安装限制和前置依赖等，排查是否满足相关要求。如果包有依赖关系，请参考导入模型时，模型配置文件中的安装包依赖参数如何编写？章节配置包的先后依赖关系。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？问题现象原因分析通过查看日志发现本地vscode-scp-done.flag显示成功上传，但远端未接收到。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备W8A8权重 - AI开发平台ModelArts

${path-to-file}/deepseekV3-bf16 --save_path ${path-to-file}/deepseekV3-w8a8 量化后的权重文件再复制到另外一台机器的相同目录。父主题：准备权重

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
管理训练容器环境变量 - AI开发平台ModelArts

开头的名称。如何修改环境变量用户可以在创建训练作业页面增加新的环境变量，也可以设置新的取值覆盖当前训练容器中预置的环境变量值。为保证数据安全，请勿输入敏感信息，例如明文密码。训练容器中预置的环境变量训练容器中预置的环境变量如下面表格所示，包括表1、表2、表3、表4、表5、表6、表7。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。支持的模型列表和权重文件本方案支持vLLM的v0.5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
SD WebUI推理方案概览 - AI开发平台ModelArts

表1 软件配套版本和获取地址软件名称说明下载地址插件代码包 AscendCloud-3rdAIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

和指导可参考Bert。图1 任务示意图操作步骤拉取镜像。本测试镜像为bert_pretrain_mindspore:v1，已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-public-

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
按需计费 - AI开发平台ModelArts
按需计费 - AI开发平台ModelArts

期，资源状态变为“已冻结”，您将无法对处于保留期的按需计费资源执行任何操作。保留期到期后，如果您仍未支付账户欠款，那么计算资源将被释放，数据无法恢复。华为云根据客户等级定义了不同客户的宽限期和保留期时长。关于充值的详细操作请参见账户充值。欠费受限您购买的资源欠费后，会导

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。专属资源池驱动版本要求23.0.6。适配的CANN版本是cann_8.0.rc3。支持的模型列表和权重文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
部署推理服务 - AI开发平台ModelArts

使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。 --dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。 --tensor-parallel-size：模型并

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）

总条数： 1521

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

准备W8A8权重 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

SD WebUI推理方案概览 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

按需计费 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线