搜索_华为云

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如果超过最大递归深度，建议您在启动文件中增大递归调用深度，具体操作如下： import sys sys.

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

验证集，不支持指定。切分比例的指定：在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

题。智能边缘平台（Intelligent EdgeFabric）通过纳管您的边缘节点，提供将云上应用延伸到边缘的能力，联动边缘和云端的数据，满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求。 ModelArts支持将模型通过智能边缘平台IEF，在边缘节点将模型

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
断点续训和故障快恢说明 - AI开发平台ModelArts

如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 训练脚本说明
动态扩充云硬盘EVS容量 - AI开发平台ModelArts

Notebook实例的存储配置采用的是云硬盘EVS。图1 创建Notebook实例时选择云硬盘EVS存储单次最大可以扩容100GB，扩容后的总容量不超过4096GB。云硬盘EVS存储容量最大支持4096GB，达到4096GB时，不允许再扩容。实例停止后，扩容后的容量仍然有效。计

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
删除数据集 - AI开发平台ModelArts

删除数据集，但不删除数据集的源数据。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/datasets/{dataset_id} 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

image, retry later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：精简模型，重新导入模型和部署上线。购买专属资源池，在部署上线为在线服务时，使用专属资源池进行部署。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；如果是导入模型没有对应的工作权限，可以参考创建自定义策略对相应账号赋予导入模型相关权限。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
删除算法 - AI开发平台ModelArts
删除算法 - AI开发平台ModelArts

提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/algorithms/{algorithm_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 algorithm_id

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
Step1 创建用户组并加入用户 - AI开发平台ModelArts

Step1 创建用户组并加入用户主用户账号下面可以创建多个子账号，并对子账号的权限进行分组管理。此步骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
更新标注团队成员 - AI开发平台ModelArts

d} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 worker_id 是 String 标注团队成员ID。 workforce_id 是 String 标注团队ID。请求参数表2 请求Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
OOM导致训练作业失败 - AI开发平台ModelArts

initialized”。原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如bat

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理。大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
准备MaaS资源 - AI开发平台ModelArts

MaaS服务提供了按需套餐包，用户可以提前购买按需套餐包，从而获得灵活的、更高性价比的算力资源。当购买了套餐包，在使用公共资源池运行任务时，将会优先抵扣套餐包的配额，超出当前套餐包的额度或使用时段，将自动转为按需收费。关于套餐包的约束限制、资源包抵扣顺序和套餐包余量预警请参见套餐包。购买操作如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

signal: Killed BP。原因分析由于batch size过大，导致Dataloader进程退出。处理方法请调小batch size的数值。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Lite Server使用前必读 - AI开发平台ModelArts

Lite Server使用前必读 Lite Server使用流程 Lite Server高危操作一览表 Lite Server算力资源和镜像版本配套关系

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

connect to endpoint”。处理方法对于OBS连接不稳定的现象，通过增加代码来解决。您可以在代码最前面增加如下代码，让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决： import moxing.tensorflow as mox

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
通过SSH工具远程使用Notebook - AI开发平台ModelArts

address)：云上开发环境Notebook实例的访问地址，即在Notebook实例详情页获取的地址。例如：dev-modelarts-cnnorth4.huaweicloud.com。 Port：云上Notebook实例的端口，即在Notebook实例详情页获取的端口号。例如：32701。 Connection

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。处理方法如果在运行训练作业时提示连接超时，请您将需要联网下载的数据提前下载至本地，并上传至OBS中。父主题：外网访问限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
训练脚本说明 - AI开发平台ModelArts

训练脚本说明 Yaml配置文件参数配置说明模型NPU卡数、梯度累积值取值表各个模型训练前文件替换 NPU_Flash_Attn融合算子约束录制Profiling 父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）

总条数： 2382

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

动态扩充云硬盘EVS容量 - AI开发平台ModelArts

删除数据集 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

删除算法 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

更新标注团队成员 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

准备MaaS资源 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

Lite Server使用前必读 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线