搜索_华为云

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

专业版。使用PyCharm ToolKit提交训练作业，社区版和专业版都支持。已注册华为账号并开通华为云，且在使用ModelArts前检查账号状态，账号不能处于欠费或冻结状态。已创建当前使用账号的访问密钥，并获得对应的AK和SK。如果未创建，请参见创建访问密钥（AK和SK）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置接续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。如果要使用自动重启功能，资源规格必须选择八卡规格。当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
查询数据集导入任务的详情 - AI开发平台ModelArts

String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集，数据库名字。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
删除节点池 - AI开发平台ModelArts

vpc String vpc id。 subnet String 子网id。 securityGroups Array of strings 安全组id集合。表10 CreatingStep 参数参数类型描述 step Integer 创建步长。 type String 批量创建类型。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
训练作业卡死检测 - AI开发平台ModelArts

environ["NCCL_DEBUG"] = "INFO"，查看NCCL DEBUG信息。问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。解决方案1 检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，发现有的节点含有GDR信息，而有的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询数据集导入任务列表 - AI开发平台ModelArts

String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集，数据库名字。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询指定节点池详情 - AI开发平台ModelArts

vpc String vpc id。 subnet String 子网id。 securityGroups Array of strings 安全组id集合。表11 CreatingStep 参数参数类型描述 step Integer 创建步长。 type String 批量创建类型。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
查看诊断报告 - AI开发平台ModelArts

Issues 下图展示了低优先级的动态shape问题，在NPU上动态shape可能导致频繁的算子编译从而影响训练性能，可以按照html中的提示在训练脚本开头加上如下红框中的两行代码（分布式训练请确保分布式训练的每个进程都可以使能这两行代码）。图13 动态shape分析 schedule 下发维度通常包含如下几类问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，如果未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
Ascend-vLLM推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查启动推理服务章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用autoAWQ进行qw

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 附录
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

path: /etc/localtime 根据config.yaml创建pod。 kubectl apply -f config.yaml 检查pod启动情况，执行下述命令。如果显示“1/1 running”状态代表启动成功。 kubectl get pod -A 进入容器，{po

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
Lite Cluster资源配置流程 - AI开发平台ModelArts

l登录”。图9 远程登录在CloudShell中设置密码等参数后，单击“连接”即可登录节点，CloudShell介绍可参见远程登录Linux弹性云服务器（CloudShell方式）。配置kubectl工具。登录ModelArts管理控制台，在左侧菜单栏中选择“AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Ascend-vLLM推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查启动推理服务章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用autoAWQ进行qw

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，如果未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用auto

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
调用MaaS部署的模型服务 - AI开发平台ModelArts

tent字段输出思考内容，然后在content中输出回答内容。 content Str 模型的回答内容。当调用失败时，可以根据错误码调整脚本或运行环境。表3 常见错误码错误码错误内容说明 400 Bad Request 请求包含语法错误。 403 Forbidden 服务器拒绝执行。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用auto

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

--train-instance-type String 否训练作业选择的资源规格。 --output String 否训练的输出信息，指定后，训练作业将会把训练脚本中指定输出参数对应训练容器的输出目录上传到指定的OBS路径。如果需要指定多个参数，可以使用--output output1=obs://bucket/output1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考

总条数： 1168

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

删除节点池 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

查询数据集导入任务列表 - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Ascend-vLLM推理常见问题 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

Ascend-vLLM推理常见问题 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线