搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm 634880 8 nvidia_drm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

e/finetune_ds.sh 的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过查看日志和性能查看日志和性能、训练脚本说明了解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有在rank_0节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。父主题：主流开源大模型基于S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
Standard模型训练 - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ ModelArts训练作业为什么存在/work和/ma-user两种超参目录？如何查看ModelArts训练作业资源占用情况？如何将在ModelArts中训练好的模型下载或迁移到其他账号？

帮助中心 > AI开发平台ModelArts > 常见问题
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

-6.3.911-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.911 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
执行训练任务 - AI开发平台ModelArts

3指使用0-3卡执行训练任务。训练成功标志 “***** train metrics *****”关键字打印训练完成后，请参考查看日志和性能章节查看指令微调的日志和性能。如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考附录：训练常见问题解决。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

在共享页签，单击“共享镜像”，在新窗口中输入共享的账号名称等，单击“确定”。用户A的操作：登录容器镜像服务控制台，在“我的镜像>他人共享”页签下，查看用户B共享的镜像，单击镜像名称进入镜像详情。按照“Pull/Push指南”页签提供的操作方法，将用户B共享的镜像Pull下来，即作为自有镜像。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时，请参见《OBS权限配置指南》> 典型场景配置案例，查找授予OBS桶权限的指导。获得OBS桶的读写权限后，您可以在Notebook中，使用moxing接口，访问对应的OBS桶，并读取数据。举例如下：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
使用MaaS压缩模型 - AI开发平台ModelArts

Studio左侧导航栏中，选择“模型压缩”进入作业列表。单击作业名称，进入压缩作业详情页面，可以查看作业详情和日志。 “详情”：可以查看作业的基本信息，包括作业、模型、资源等设置信息。 “日志”：可以搜索、查看和下载作业日志。删除压缩作业删除操作无法恢复，请谨慎操作。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
ModelArts Standard使用流程 - AI开发平台ModelArts

部署为在线服务部署为批量服务访问服务服务部署完成后，针对在线服务和边缘服务，您可以访问并使用服务，针对批量服务，您可以查看其预测结果。访问在线服务查看批量服务预测结果

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。父主题：主流开源大模型基于S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
扩缩容模型服务实例数 - AI开发平台ModelArts

配置完成后，单击“确认”提交扩缩容任务。在“扩缩容服务”对话框，单击“确定”。在“我的服务”页签，单击服务名称，进入服务详情页，可以查看修改后的实例数是否生效。父主题：管理我的服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 管理我的服务
什么是Workflow - AI开发平台ModelArts

权限，并查看相应的资源使用情况等。时间安排：围绕子流水线配置相应的子任务安排，并加以通知机制，实现流程执行过程之间配合的运转高效管理。流程质量与效率测评：提供流水线的任务执行过程视图，增加不同的检查点，如数据评估、模型评估、性能评估等，让AI项目管理者能很方便的查看流水线执行过程的质量与效率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。建议与总结在创建训练作业前，推荐您先使用Mode

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Lite Server资源配置流程 - AI开发平台ModelArts

解决方案。 3 配置Lite Server软件环境不同镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时，您可在Server服务器中配置所需要的软件环境。父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
工作负载Pod异常 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法

总条数： 1668

上一页
1
...
61
62
63
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

CogVideoX模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

不在同一个主账号下，如何使用他人的自定义镜像创建Notebook？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

ModelArts Standard使用流程 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

扩缩容模型服务实例数 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线