搜索_华为云

删除训练作业版本 - AI开发平台ModelArts

_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
重置AppCode - AI开发平台ModelArts
重置AppCode - AI开发平台ModelArts

待重置的AppCode。 app_id 是 String APP编号，可通过APP列表接口获取。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
增加AppCode - AI开发平台ModelArts
增加AppCode - AI开发平台ModelArts

参数类型描述 app_id 是 String APP编号，可通过APP列表接口获取。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 Content-Type 否 String

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
获取用户绑定APP的api列表 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 app_id 是 String APP编号。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 limit 否 String 分页展示时，一页展示多少项。默认为1000。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
离线训练安装包准备说明 - AI开发平台ModelArts

ModelLink中。 git clone https://gitee.com/ascend/ModelLink.git cd ModelLink git checkout 8f50777 cd .. git clone https://gitee.com/lmzwhu/Megatron-LM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

Scripts文件夹，例如“c:\python\python**\Scripts”。配置pip源。以Windows环境为例，配置pip源方法如下：新建pip文件夹。启动cmd，输入set命令，查看APPDATA路径。并在APPDATA对应路径下创建pip文件夹。文件内容示例如下：

帮助中心 > AI开发平台ModelArts > SDK参考
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

重复打印日志，该日志表示正在读取远端存在的文件，当文件列表读取完成以后，开始下载数据。如果文件比较多，那么该过程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。处理方法可以参考官方文档，如下： """run.py:""" #!/usr/bin/env python import os import torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

创建项目的时候，数据集输入位置没有可选数据可能原因创建的OBS桶与创建项目不在同一个区域。账号没有配置全局授权。 OBS桶里的数据格式不符合要求。解决方法查看ModelArts创建的项目与创建的OBS桶是否在同一区域。查看创建的OBS桶所在区域。登录OBS管理控制台。进入“对象存储”

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 创建项目
训练作业失败，返回错误码139 - AI开发平台ModelArts

误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询数据集监控数据 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 end_time 是 Long 监控信息的截止时间。 start_time

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

下载model_zoo相关数据从以下5个链接下载model_zoo数据 https://huggingface.co/lmsys/vicuna-7b-v1.5 https://huggingface.co/lmsys/vicuna-13b-v1.5 https://storage.googleapis.c

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

--learning_rate $LR \ --pre_seq_len $PRE_SEQ_LEN \ --local_rank -1 处理方法单卡执行脚本中添加参数“--local_rank -1”。多卡模式下无需指定，会默认启动DistributedDataParallel

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导 > 常见问题
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方式”

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示"write line error" - AI开发平台ModelArts

“/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查询消息订阅Subscription详情 - AI开发平台ModelArts

ubscription_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 subscription_id 是 String 工作流的消息订阅ID。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
在线服务鉴权 - AI开发平台ModelArts

ws/service/auth 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 main_service_id 否 String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
离线训练安装包准备说明 - AI开发平台ModelArts

ModelLink中。 git clone https://gitee.com/ascend/ModelLink.git cd ModelLink git checkout 8f50777 cd .. git clone https://gitee.com/lmzwhu/Megatron-LM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
更新训练作业描述 - AI开发平台ModelArts

fourth") 参数说明表1 Estimator请求参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

总条数： 1049

上一页
1
...
32
33
34
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

删除训练作业版本 - AI开发平台ModelArts

重置AppCode - AI开发平台ModelArts

增加AppCode - AI开发平台ModelArts

获取用户绑定APP的api列表 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

查询数据集监控数据 - AI开发平台ModelArts

LLaMA-VID基于DevServer适配PyTorch NPU推理指导（6.3.910) - AI开发平台ModelArts

报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

查询消息订阅Subscription详情 - AI开发平台ModelArts

在线服务鉴权 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线