搜索_华为云

查询指定节点池详情 - AI开发平台ModelArts

指定可用区扩容时，指定可用区的节点数。表8 Taint 参数参数类型描述 key String 键。 value String 值。 effect String 作用效果。表9 UserTag 参数参数类型描述 key String 键。不得以"CCE-"或"__type_baremetal"开头

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题问题现象创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

class Device: def __init__(self, device_id, device_ip, rank_id): self.device_id = device_id self.device_ip = device_ip

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU {j}...") with torch.cuda.device(i): data = torch.randn(data_size, device=device) torch.cuda.synchronize()

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
附录：训练常见问题 - AI开发平台ModelArts

export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
Notebook提示磁盘空间已满 - AI开发平台ModelArts

Notebook提示磁盘空间已满问题现象在使用Notebook时，提示磁盘空间已满：No Space left on Device。在Notebook执行代码时，出现如下报错，提示：Disk quota exceeded。原因分析在JupyterLab浏览器左侧导航删除

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

torch.backends.cudnn.enabled) device = torch.device('cuda') print('E', torch.cuda.get_device_properties(device)) print('F', torch.tensor([1.0

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

ModelArts管理员用户，拥有所有ModelArts服务的权限系统策略 ModelArts CommonOperations ModelArts操作用户，拥有所有ModelArts服务操作权限除了管理专属资源池的权限系统策略 ModelArts Dependency Access ModelArts服务的常用依赖服务的权限

 帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts权限管理基本概念 - AI开发平台ModelArts

ModelArts管理员用户，拥有所有ModelArts服务的权限系统策略 ModelArts CommonOperations ModelArts操作用户，拥有所有ModelArts服务操作权限除了管理专属资源池的权限系统策略 ModelArts Dependency Access ModelArts服务的常用依赖服务的权限

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
查询节点池列表 - AI开发平台ModelArts

指定可用区扩容时，指定可用区的节点数。表8 Taint 参数参数类型描述 key String 键。 value String 值。 effect String 作用效果。表9 UserTag 参数参数类型描述 key String 键。不得以"CCE-"或"__type_baremetal"开头

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
GPU相关问题 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 日志提示“RuntimeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left on device”。同一目录下创建较多文件，为了加快文件检索速度，内核会创建一个索引表，短时间内创建较多文件时，会导致索引表达到上限，进而报错。触发条件和下面的因素有关：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

server_index = index if server["device"]: device_count = len(server["device"]) # RANK_TABLE_FILE文件中，节点总数量为0，表示未获取到节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

server_index = index if server["device"]: device_count = len(server["device"]) # RANK_TABLE_FILE文件中，节点总数量为0，表示未获取到节点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

file or directory” 3.“Make sure the device specification refers to a valid device, The requested device appeares to be a GPU,but CUDA is not

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足问题现象用户在导入模型后，部署服务时，提示磁盘空间不足：“No space left on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业找不到GPU - AI开发平台ModelArts

问题现象训练作业运行出现如下报错： failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
执行微调训练任务 - AI开发平台ModelArts

必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

_log”的文件夹下，示例：“worker-0/…/process_log/”。 Device侧日志采集后必须放在名为“device_log”的文件夹下，示例：“worker-0/…/device_log/”。主机侧资源信息、NPU网口资源信息采集后必须放在名为“environ

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
执行训练任务（推荐） - AI开发平台ModelArts

ascendfactory-cli train <cfgs_yaml_file> <model_name> <exp_name> # 指定设备卡数，如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 ascendfactory-cli train <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务

总条数： 1070

上一页
1
...
12
13
14
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询指定节点池详情 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

查询节点池列表 - AI开发平台ModelArts

GPU相关问题 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线