搜索_华为云

工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
训练作业进程被kill - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
自定义脚本代码示例 - AI开发平台ModelArts

ray>} # 后处理中处理模型输出为HTTPS的接口输出 def _postprocess(self, data): infer_output = {"mnist_result": []} # 迭代处理模型输出 for

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
训练作业失败，返回错误码139 - AI开发平台ModelArts

了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示"write line error" - AI开发平台ModelArts

0G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
W8A8量化 - AI开发平台ModelArts
W8A8量化 - AI开发平台ModelArts

量化。 Deepseek-v2系列模型的W8A8量化需要使用llm-compressor工具。 SmoothQuant量化模型本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
查询镜像详情 - AI开发平台ModelArts

无响应参数状态码：200 表2 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

无响应参数状态码：200 表3 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
Notebook提示磁盘空间已满 - AI开发平台ModelArts

exceeded。原因分析在JupyterLab浏览器左侧导航删除文件后，会默认放入回收站占用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练作业进程异常退出 - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Code在Python项目开发中提供了优秀的代码编辑、调试、远程连接和同步能力，在开发者中广受欢迎。本文以Ascend Model Zoo为例，介绍如何通过VS Code插件及ModelArts Notebook进行云端数据调试及模型开发。方案优势云端开发调试优势：环境保持一致配置一键完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
Lite Server使用流程 - AI开发平台ModelArts

更多裸金属服务器的介绍请见裸金属服务器 BMS。 xPU xPU泛指GPU和NPU。 GPU，即图形处理器，主要用于加速深度学习模型的训练和推理。 NPU，即神经网络处理器，是专门为加速神经网络计算而设计的硬件。与GPU相比，NPU在神经网络计算方面具有更高的效率和更低的功耗。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
快速配置ModelArts委托授权 - AI开发平台ModelArts

常见问题首次使用ModelArts如何配置授权？直接选择“新增委托”中的“普通用户”权限即可，普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限，如数据的访问、训练作业的创建和管理等。一般用户选择此项即可。如何获取访问密钥AK/SK？如果在其他功能（

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
配置ModelArts委托授权 - AI开发平台ModelArts

常见问题首次使用ModelArts如何配置授权？直接选择“新增委托”中的“普通用户”权限即可，普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限，如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。如何获取访问密钥AK/SK？如果在其他功能（

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
增量模型训练 - AI开发平台ModelArts

新知识来避免这个问题。增量训练在很多领域都有应用，比如自然语言处理、计算机视觉和推荐系统等。它使得AI系统能够更加灵活和适应性强，更好地应对现实世界中不断变化的数据环境。 ModelArts Standard中如何实现增量训练增量训练是通过Checkpoint机制实现。 Ch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

训练创建新的作业。旧版训练管理是否停止新购？是的，旧版训练管理将于2023年6月30日 00:00(北京时间)正式退市。旧版训练管理如何升级到新版训练？请参考新版训练指导文档（模型训练）来体验新版训练。旧版训练迁移至新版训练需要注意哪些问题？新版训练和旧版训练的差异主要体现在以下3点。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
Function Calling介绍 - AI开发平台ModelArts

Calling使用场景说明使用场景说明增强能力大模型通过Function Calling可以调用外部工具或服务，例如实时数据检索、文件处理、数据库查询等，从而扩展其能力。实时数据访问由于大模型通常基于静态数据集训练，不具备实时信息。Function Calling允许模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力

总条数： 1180

上一页
1
...
46
47
48
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

W8A8量化 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

使用ModelArts VSCode插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

快速配置ModelArts委托授权 - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版训练管理下线公告 - AI开发平台ModelArts

Function Calling介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线