搜索_华为云

保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.5.901） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-6.3.906-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
发布解决方案 - AI开发平台ModelArts

左侧菜单栏选择“解决方案”进入解决方案列表页，单击右上方的“发布”，进入发布解决方案页面。根据界面提示填写解决方案的相关信息，单击下方的“提交”。在解决方案列表页可以查看发布的方案信息。父主题：合作伙伴

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 合作伙伴
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

deepseek-v2-236B deepseek-coder-v2-lite-16B Ascend-vllm支持如下推理特性：支持分离部署支持多机推理支持大小模型投机推理及eagle投机推理支持chunked prefill特性支持automatic prefix caching

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-6.3.907-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
入驻AI Gallery - AI开发平台ModelArts

Gallery数字内容发布协议》和《华为云AI Gallery服务协议》后，单击“确定”完成入驻。图1 入驻AI Gallery 注册完成后，您可以在AI Gallery中报名实践活动或发布技术文章（AI说）。父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |──llm_inference # 推理代码包 |──llm_tools

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
如何将两个ModelArts数据集合并？ - AI开发平台ModelArts

如何将两个ModelArts数据集合并？目前不支持直接合并。但是可以参考如下操作方式，将两个数据集的数据合并在一个数据集中。例如需将数据集A和数据集B进行合并。分别将数据集A和数据集B进行发布。发布后可获得数据集A和数据集B的Manifest文件。可通过数据集的“数据集输出位置”获得此文件。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
发布Workflow到AI Gallery - AI开发平台ModelArts

flow”，进入我的Workflow页面。在“我的发布”页签中查看发布到AI Gallery的工作流。图1 发布的Workflow 您可以单击工作流名称，查看发布的工作流详情。其中release_to_gallery()方法包含以下入参：参数名称描述是否必填参数类型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

IdentityFile：本地密钥路径 - User：用户名，例如：ma-user - HostName：IP地址 - Port：端口号 vscode-server相关问题也可以使用上述的解决方法。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
录制Profiling - AI开发平台ModelArts

Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础上Step3 启动训练脚本新加DO_PROFILER=1和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

Profiler接口可全面采集PyTorch训练场景下的性能数据，主要包括PyTorch层算子信息、CANN层算子信息、底层NPU算子信息、以及算子内存占用信息等，可以全方位分析PyTorch训练时的性能状态。录制命令如下：在启动训练脚本基础：启动训练脚本新加DO_PROFILER=1和PROF_SA

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
创建导入任务 - AI开发平台ModelArts

annotation_config = dict() # Manifest文件导入任务中，传入annotation_config参数可以导入标注信息 import_resp = dataset.import_data( path="/obs-gaia

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 导入任务管理
在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

py 如果当前进程使用GPU 如果当前没有进程使用GPU 方法二：打开文件“/resource_info/gpu_usage.json”，可以看到有哪些进程在使用GPU。如果当前没有进程使用GPU，该文件可能不存在或为空。父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 2177

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

发布解决方案 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

入驻AI Gallery - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

如何将两个ModelArts数据集合并？ - AI开发平台ModelArts

发布Workflow到AI Gallery - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

创建导入任务 - AI开发平台ModelArts

在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线