搜索_华为云

离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下载代码、安装pyt

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

a-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制问题现象在导入模型时，提示单个模型文件大小超过5G限制。原因分析在不使用动态加载的情况下，系统对单个模型文件的限制大小为5G，超过时无法进行导入。处理方法精简模型文件后，重新导入。使用动态加载功能进行导入。图1 使用动态加载父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Notebook中使用Conda安装Keras 2.3.1报错 - AI开发平台ModelArts

Notebook中使用Conda安装Keras 2.3.1报错问题现象使用Conda安装Keras 2.3.1版本报错。原因分析可能是Conda网络不通，请使用pip install命令安装。解决方法执行 !pip install keras==2.3.1命令安装Keras。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

训练作业日志中提示“No module named .*” 用户请按照以下思路进行逐步排查：检查依赖包是否存在检查依赖包路径是否能被识别检查训练作业使用的资源规格是否正确建议与总结检查依赖包是否存在如果依赖包不存在，您可以使用以下两种方式完成依赖包的安装。方式一（推

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

运行训练作业时提示URL连接超时问题现象训练作业在运行时提示URL连接超时，具体报错如下： urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” 问题现象日志提示“root: XXX valid number is 0”，表示训练集/验证集/测试集的有效样本量为0，例如： INFO: root: Train valid number is 0. INFO:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” 问题现象使用YOLOv5算法增量训练时出现如下报错：UnboundLocalError: local variable 'epoch' referenced before assignment。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
Lite Server资源开通 - AI开发平台ModelArts

支持则不会显示IPv6网络参数，请以控制台实际显示为准。 RoCE网络当前使用A系列GPU时，进行分布式训练为了将硬件上的RoCE网卡使用起来，需要配置RoCE网络。该参数与所选规格有关，如果未选中规格或规格不支持RoCE网络，则不显示。如果规格支持RoCE网络但未创建过，单击“新建RoCE网络”即可完成创建。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled 问题现象创建Notebook失败，查看事件显示JupyterProcessKilled。图1 查看事件原因分析出现此故障是因为Jupyter进程被清理掉了，一般情况Notebook会自动重启的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
VS Code ToolKit连接Notebook - AI开发平台ModelArts

安装过程预计1~2分钟，如图2所示，请耐心等待。图2 安装过程安装完成后，系统右下角提示安装完成，导航左侧出现ModelArts图标和SSH远程连接图标，表示VS Code插件安装完成。图3 安装完成提示图4 安装完成当前网络不佳时SSH远程连接插件可能未安装成功，此时无需操作，在Step4

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象训练作业在使用MoXing复制数据时，日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” 问题现象在安装其他包的时候，有依赖冲突，对numpy库有其他要求，但是发现numpy卸载不了。出现如下类似错误： your numpy version

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” 问题现象训练过程中出现如下报错： TypeError: '(slice(0, 13184, None), slice(None

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” 问题现象训练作业中使用Tensorboard直接写入到OBS路径，在日志中出现报错信息“ValueError: Invalid endpoint: obs. xxxx.com”。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

理控制台或者API接口访问在线服务。边缘服务云端服务是集中化的离终端设备较远，对于实时性要求高的计算需求，把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端设备通常计算能力不足，无法与云端相比。在此情况下，通过在靠近终端设备的地方建立边缘节点，将云端计算能

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left 问题现象创建训练作业，Tensorflow多节点作业下载数据到/cache显示：“No space left”。原因分析 TensorFlow多节点任务会启动parameter server（

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败问题现象通过OBS创建模型构建失败，查看构建日志，提示pip下载包失败。如下载numpy 1.16版本失败。原因分析一般下载包失败时，可能有如下几个原因： pip源中不存在该包，当前默认pip源为pypi.org中的包，请在pypi

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理

总条数： 940

上一页
1
2
3
4
5
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

离线训练安装包准备说明 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

Notebook中使用Conda安装Keras 2.3.1报错 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

日志提示“root: XXX valid number is 0” - AI开发平台ModelArts

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

创建Notebook失败，查看事件显示JupyterProcessKilled - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

ModelArts在线服务和边缘服务有什么区别？ - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线