搜索_华为云

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

练改造(DDP)的完整代码示例，供用户学习参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

为“运行中”后，再次执行远程连接。执行如下命令排查本地网络是否可以访问。 curl -kv <ssh域名>:<ssh端口> 如果端口不通，请检查本地网络。如果问题还未解决，请联系技术支持。图1 检查端口是否可以访问父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：大模型推理standard常见问题 - AI开发平台ModelArts

解决方法：降低transformers版本到4.42：pip install transformers==4.42 --upgrade 问题6：部署在线服务报错starting container process caused "exec: \"/home/mind/model/run_vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
迁移效果校验 - AI开发平台ModelArts

pipeline输出的结果图片进行对比，在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。确认性能是否满足要求在推理代码开始结尾处加入时间记录，并打印出推理执行耗时。根据用户需求判断性能是否满足要求，如果不满足可以进行性能调优。 import time start_time = time

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

基础镜像中的Cann软件版本版本匹配。 ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池（NEW）的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看，具体请参见训练基础镜像详情（Ascend-Powered-Engine）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
标注结果存储在哪里？ - AI开发平台ModelArts

标注结果存储在哪里？ ModelArts管理控制台，提供了数据可视化能力，您可以在控制台中查看详细数据以及标注信息。如需了解标注结果的存储路径，请参见如下说明。背景说明针对ModelArts中的数据集，在创建数据集时，需指定“数据集输入位置”和“数据集输出位置”。两个参数填写的均是OBS路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
附录：大模型推理常见问题 - AI开发平台ModelArts

self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题8：使用autoAWQ进行qwen-7b模型量化时报错TypeError: 'NoneType'

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启。父主题：主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
人工标注视频数据 - AI开发平台ModelArts

由于模型训练过程需要大量有标签的视频数据，因此在模型训练之前需对没有标签的视频添加标签。通过ModelArts您可对视频添加标签，快速完成对视频的标注操作，也可以对已标注视频修改或删除标签进行重新标注。视频标注仅针对视频帧进行标注。开始标注登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备>

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据

总条数： 1970

上一页
1
...
92
93
94
...
99
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？ - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理standard常见问题 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

标注结果存储在哪里？ - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线