搜索_华为云

打开Notebook实例提示token不存在或者token丢失如何处理？ - AI开发平台ModelArts

打开Notebook实例提示token不存在或者token丢失如何处理？问题现象把已打开的Notebook URL发送给他人使用，他人无法打开，报错“……lost token or incorrect token……”。原因分析原因是由于其他人没有此账号的令牌导致。解决方案

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败问题现象通过OBS创建模型构建失败，查看构建日志，提示pip下载包失败。如下载numpy 1.16版本失败。原因分析一般下载包失败时，可能有如下几个原因： pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象在使用PyTorch1.0镜像时，必现如下报错： “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突，具体可参看文档。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 问题现象创建训练作业时，提示ModelArts.2763 : 选择的支持实例无效，请检查请求中信息的合法性。原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

日志提示“Please set the train_url to an empty obs directory” 问题现象日志提示“Please set the train_url to an empty obs directory”。原因分析对于不支持断点训练的模型，如果

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

使用订阅算法训练结束后没有显示模型评估结果问题现象 AI Gallery中的YOLOv5算法，训练结束后没有显示模型评估结果。原因分析未标注的图片过多，导致没有模型评估结果。处理方法对所有训练数据进行标注。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象使用mindspore进行训练时，出现如下报错： [ERROR] RUNTIME(3002)model execute error, retCode=0x91

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” 问题现象训练作业日志运行出现如下报错：Runtimeerror: Dataloader worker (pid 46212

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建Standard专属资源池 - AI开发平台ModelArts

指定可用区：自定义选择控制节点的可用区。网络 MA网络指定资源池运行的网络，可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。在下拉框中选择，如果没有可用网络，单击右侧的“创建”，创建一个可用的网络。创建网络相关可以参考步骤一：创建网络章节。 IPv6网络开启IPv6功能。如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

对于使用ModelArts专属资源池的用户，在控制台创建完网络后，在网络列表页“操作 > 更多”下拉框中可见“关联sfsturbo”和“解除关联”。其中，“关联sfsturbo”用于将此网络与某个选定的SFS Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
使用CES监控Lite Server资源 - AI开发平台ModelArts

count ≥0 instance_id，npu 39 RoCE网络 npu_device_network_health NPU网络健康情况 NPU卡的RoCE网卡的IP地址连通情况 - 0：网络健康状态正常非0：网络状态异常 instance_id，npu Snt9B Snt9C

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
InternVL2&2.5系列模型基于Lite Server适配PyTorch NPU训练指导（6.5.901) - AI开发平台ModelArts

True 5d8f485ad09b3eb9b2a7d9a24cca727fa58bb775 https://huggingface.co/OpenGVLab/InternVL2-8B/tree/main InternVL2-26B True True 5d8f485ad09b3eb9b2

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
Lite Cluster资源配置流程 - AI开发平台ModelArts

netes基础知识、网络知识、存储和镜像知识。配置流程图1 Lite Cluster资源配置流程图表1 Cluster资源配置流程配置顺序配置任务场景说明 1 配置Lite Cluster网络购买资源池后，需要弹性公网IP并进行网络配置，配置网络后可通过公网访问集群资源。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “Runtim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

0-147.5. 1.6.h934.eulerosv2r9.x86_64-advanced-f6aefacb-f2d3-4809-b708-6ad0357037f5' { menuentry 'EulerOS (4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64)

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

立WebSocket连接。图2 获取API接口调用公网地址如果信息正确，右下角连接状态处会显示：CONNECTED；如果无法建立连接，如果是401状态码，检查认证信息；如果显示WRONG_VERSION_NUMBER等关键字，检查自定义镜像的端口和ws跟wss的配置是否正确。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

[install] trusted-host=mirrors.myhuaweicloud.com RoCE网络测试。安装cann-toolkit。查看服务器是否已安装CANN Toolkit，如果显示有版本号则已安装。 cat /usr/local/Ascend/ascend-toolkit

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

DCGM_FI_DEV_SM_CLOCK{gpu="0", UUID="GPU-6ad7ea4c-5517-05e7-0b54-7554cb4374d3"} 1 DCGM_FI_DEV_MEM_CLOCK{gpu="0", UUID="GPU-6ad7ea4c-5517-05e7-0b54-7554cb4374d3"}

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 940

上一页
1
...
4
5
6
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

打开Notebook实例提示token不存在或者token丢失如何处理？ - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

InternVL2&2.5系列模型基于Lite Server适配PyTorch NPU训练指导（6.5.901) - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线