搜索_华为云

准备镜像环境 - AI开发平台ModelArts

检查containerd是否安装在创建CCE集群时，会选择containerd作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

检查containerd是否安装在创建CCE集群时，会选择containerd作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

ignore 系统已自动过跳过这张图片，不需要用户处理。 2 tf-decode failed 图片无法被TensorFlow解码且不能修复 ignore 系统已跳过这张图片，不需要用户处理。 3 size over 图片大于5MB resize to small 系统已将图片压缩到5MB以内处理，不需要用户处理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

Error 802原因为缺少fabricmanager，可能由于以下原因导致nvidia-fabricmanager.service不工作：可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

exec format error”。这种报错一般是因为所用镜像系统引擎和构建镜像的系统引擎不一致引起的，例如使用的是x86的镜像却标记的是arm的系统架构。可以通过查看模型详情看到配置的系统运行架构。基础镜像的系统架构详情可以参考推理基础镜像列表。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

重新进行安装需要的版本。 import os os.system("pip uninstall -y numpy") os.system('rm -rf /home/work/anaconda/lib/python3.6/site-packages/numpy/') os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

download_datasets.py的内容。 import os import pandas as pd for idx, row in pd.read_csv('results_2M_val.csv').iterrows(): os.system(f"wget -O './dat

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA 11.7”。操作步骤卸载原有版本的NVIDIA和CUDA。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
无法导入模块 - AI开发平台ModelArts

path”中，再导入： import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录，即project_dir的绝对路径 current_path = os.path.dirname(__file__)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
准备镜像环境 - AI开发平台ModelArts

检查containerd是否安装在创建CCE集群时，会选择containerd作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。图1 创建SFS Turbo 其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

数据未保存至/cache目录或者/home/ma-user/目录（/cache会软连接成/home/ma-user/），导致数据占满系统目录。系统目录仅支持系统功能基本运行，无法支持大数据存储。部分训练任务会在训练过程中生成checkpoint文件，并进行更新。如更新过程中，未删除历

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA initialization:

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
设置断点续训练 - AI开发平台ModelArts

epoch } if not os.path.isdir(train_url): os.makedirs(train_url) torch.save(checkpoint, os.path.join(train_url, 'ckpt_best_{}

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型训练存储加速 - AI开发平台ModelArts

Turbo”，在“文件系统”中选择SFS Turbo实例名称，并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前，自动将存储位置中的文件目录挂载到训练容器中指定路径。图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo，文件系统支持重复挂载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
AIGC工具tailor使用指导 - AI开发平台ModelArts

2/use/downloads.html 需要下载的安装包与操作系统有关，请根据需要选择合适的安装包。如果操作系统为Linux aarch64，请下载mindspore-lite-2.2.10-linux-aarch64.tar.gz。如果操作系统为Linux x86_64，请下载mindspore-lite-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
开发第一条Workflow - AI开发平台ModelArts

境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker size大小时，会提示镜像内空间不足。处理方法公共资源池容器Docker size的大小最大支持50G，专属资源池Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
创建节点池 - AI开发平台ModelArts

参数类型描述 os.modelarts/billing.mode 否 String 计费模式，可选值如下： 0：按需计费 1：包周期计费 os.modelarts/period.num 否 String 包周期订购周期，比如2。当计费模式为包周期时该参数必传。 os.modelarts/period

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理

总条数： 609

上一页
1
...
10
11
12
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

创建节点池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线