搜索_华为云

专属资源池VPC打通 - AI开发平台ModelArts

专属资源池VPC打通通过打通VPC，可以方便用户跨VPC使用资源，提升资源利用率。步骤一：打通VPC 通过打通VPC，可以方便用户跨VPC使用资源，提升资源利用率。登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，在“网络”

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
在MaaS中创建模型 - AI开发平台ModelArts

当“权重设置与词表”选择“自定义权重”时，需要选择存放模型权重文件的OBS路径，必须选择到模型文件夹。单次上传本地文件到OBS的总大小不能超过5GB，详情请参见如何上传超过5GB的大对象。权重校验当“权重设置与词表”选择“自定义权重”时，需要选择是否开启权重文件校验。默认是开启的。当开启权重校验

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” 问题现象训练作业中使用Tensorboard直接写入到OBS路径，在日志中出现报错信息“ValueError: Invalid endpoint: obs. xxxx.com”。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件问题现象训练作业的状态一直在“创建中”，查看训练作业的“事件”，有异常信息“实例挂卷失败”，详情为“Unable to mount volumes for pod xxx ... list of unmounted volumes=[nfs-x]”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “Runtim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

配置Standard专属资源池可访问公网场景介绍当您使用专属资源池创建作业时（如训练作业），如果需要作业运行过程中需要专属资源池访问外网，可打通VPC的方式，使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内，实现专属资源池访问外网。前提条件已拥有需要部署SNAT的弹性云服务器。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” 问题现象在使用keras时，升级版本>=2.3.0之后，之前跑通的代码出现如下报错： TypeError: Unexpected keyword argument passed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“ Network is unreachable” - AI开发平台ModelArts

日志提示“ Network is unreachable” 问题现象在使用pytorch时，将torchvision.models中的pretrained置为了True，日志中出现如下报错： ‘OSError: [Errno 101] Network is unreachable’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练作业失败，返回错误码139 - AI开发平台ModelArts

训练作业失败，返回错误码139 问题现象训练作业运行失败，返回错误码139，如下图所示： [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

上传镜像操作场景客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" 问题现象在程序运行过程中，出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

Notebook的自定义镜像制作方法用户在使用ModelArts开发环境时，经常需要对开发环境进行一些改造，如安装、升级或卸载一些包。但是某些包的安装升级需要root权限，运行中的Notebook实例中无root权限，所以在Notebook实例中安装需要root权限的软件，目前

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置背景说明访问在线服务的实际业务中，用户可能会存在如下需求：高吞吐量、低时延 TCP或者RPC请求因此，ModelArts提供了VPC直连的高速访问通道功能以满足用户的需求。使用VPC直连的高速访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
调用MaaS部署的模型服务 - AI开发平台ModelArts

"content": "你好！很高兴能为你提供帮助。有什么问题我可以回答或帮你解决吗？" }, "logprobs": null, "finish_reason": "stop", "stop_reason":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）

总条数： 2081

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

专属资源池VPC打通 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

查看训练作业标签 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“ Network is unreachable” - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线