搜索_华为云

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

Description 训练作业的简要描述。 Algorithm Source 训练算法来源，分为“常用框架”和“自定义镜像”两种，二者选一项即可。常用框架指使用ModelArts训练管理中支持的常用AI引擎，当前支持的引擎列表请参见ModelArts支持的预置镜像列表。如果您使用的AI引擎为支

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
训练作业失败，返回错误码139 - AI开发平台ModelArts

OBS-Python-SDK-3.1.2 原因分析出现该问题的可能原因如下 pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

C445CAA1A71019C9D0 retry:0 原因分析出现该问题的可能原因如下: OBS服务的权限出现问题，导致无法正常读取数据处理方法请检查OBS权限配置，如未解决问题可参考OBS文档的已配置OBS权限，仍然无法访问OBS（403 AccessDenied）。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
系统容器异常退出 - AI开发平台ModelArts

OBS其他问题。请参考OBS服务端错误码或者采集request id后向OBS客服进行咨询。如果是空间不足。参考常见的磁盘空间不足的问题和解决办法章节处理。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败

 帮助中心 > AI开发平台ModelArts > 故障排除
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。 # 配置华为云的源，安装 python、python3-pip 和 Flask RUN

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量，或者用以下代码测试，查看结果是否返回的是True。 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
Notebook中构建新镜像 - AI开发平台ModelArts

Notebook介绍 ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
管理Lite Cluster节点 - AI开发平台ModelArts

单个节点的资源释放。若想批量删除节点，勾选待删除节点名称前的复选框，然后单击名称上方的“删除”，即可实现对多个节点的资源释放。若是“包年/包月”且资源未到期的资源池，您可单击操作列的“退订”，即可实现对节点的资源释放。支持批量退订节点。若是“包年/包月”且资源到期的资源池（

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
终止训练作业 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
配置Lite Cluster网络 - AI开发平台ModelArts

访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图1 节点管理绑定弹性公网IP。若已有未绑定的弹性公网

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess 原因分析出现该问题的可能原因如下： multiprocessing启动方式有误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ，即为当前网卡的接收速率，单位Byte/s。方法2：使用ib_write_bw测试RDMA的读写处理确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
查询训练作业详情 - AI开发平台ModelArts

String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
OOM导致训练作业失败 - AI开发平台ModelArts

initialized”。原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如bat

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练过程中无法找到so文件 - AI开发平台ModelArts

directory 原因分析编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

服务授权列表待授权的服务适用场景 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限，只有使用权限。推荐给子用户配置此权限。如果需要给子用户开通专属资源池的创建、更新、删除权限，此处要勾选ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置

总条数： 612

上一页
1
...
22
23
24
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

Notebook中构建新镜像 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线