搜索_华为云

执行训练任务 - AI开发平台ModelArts

export PYTORCH_NPU_ALLOC_CONF = expandable_segments:False 否，demo.sh添加变量，开启虚拟显存。 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True 修改yaml文件路径：修改demo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" 问题现象在程序运行过程中，出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
在推理生产环境中部署推理服务 - AI开发平台ModelArts

ut错误。 PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。 --image-input-type：图像输入模式，pixel_values

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

通过pip在本地或云上开发环境安装AI Gallery SDK（galleryformers）。 pip install galleryformers 建议在虚拟环境（Python 3.8+）中安装AI Gallery SDK，以便管理不同的项目，避免依赖项之间产生兼容性问题。构建自定义模型。编写自定义配置类。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
查询服务详情 - AI开发平台ModelArts

在线/批量服务使用的专属资源池ID或边缘服务使用的边缘资源池ID，仅当配置专属资源池或边缘资源池时返回。 vpc_id String 在线服务实例所在的虚拟私有云ID，服务自定义网络配置时返回。 subnet_network_id String 在线服务实例所在的子网的网络ID，服务自定义网络配置时返回。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

ut错误。 PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。 --image-input-type：图像输入模式，pixel_values

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group 问题现象报错提示RuntimeError: Default

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导 > 常见问题
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
迁移适配 - AI开发平台ModelArts
迁移适配 - AI开发平台ModelArts

迁移适配本文以PyTorch框架在NPU上完成自动迁移为例，对适配过程需要修改的部分进行说明。并且针对单卡环境以及单机多卡deepspeed环境提供训练脚本。无特别说明，以ChatGLM-6B源代码根目录作为当前目录。自动迁移适配修改“ptuning/main.py”，添加

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
在推理生产环境中部署推理服务 - AI开发平台ModelArts

T_S=600 # PYTORCH_NPU_ALLOC_CONF优先设置为expandable_segments:True # 如果有涉及虚拟显存相关的报错，可设置为expandable_segments:False export PYTORCH_NPU_ALLOC_CONF=e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
准备文本分类数据 - AI开发平台ModelArts

准备文本分类数据使用ModelArts自动学习构建模型时，您需要将数据上传至对象存储服务（OBS）中。OBS桶需要与ModelArts在同一区域。数据集要求文件格式要求为txt或者csv，文件大小不能超过8MB。以换行符作为分隔符，每行数据代表一个标注对象。文本分类目前只支持中文。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
在推理生产环境中部署推理服务 - AI开发平台ModelArts

T_S=600 # PYTORCH_NPU_ALLOC_CONF优先设置为expandable_segments:True # 如果有涉及虚拟显存相关的报错，可设置为expandable_segments:False export PYTORCH_NPU_ALLOC_CONF=e

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
Lite Cluster资源开通 - AI开发平台ModelArts

27，仅支持选择Containerd作为容器引擎。其余CCE集群版本，支持选择Containerd或Docker作为容器引擎。节点池名称：新建节点池的名称，可自定义。虚拟私有云：默认为CCE集群所在VPC网络，不可修改。节点子网：选择同一VPC网络下的子网作为节点子网，新创建的节点将会使用该子网资源。关

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ut错误。 PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。 --image-input-type：图像输入模式，pixel_values

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
从OBS目录导入数据规范说明 - AI开发平台ModelArts

从OBS目录导入数据规范说明导入数据集时，使用存储在OBS的数据时，数据的存储目录以及文件名称需满足ModelArts的规范要求。当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。其中，“表格”类型的数据集，支持从OBS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ut错误。 PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。 --image-input-type：图像输入模式，pixel_values

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
日志提示"Permission denied" - AI开发平台ModelArts

日志提示"Permission denied" 问题现象训练作业访问挂载的EFS，或者是执行.sh启动脚本时，出现如下错误： OSError: [Errno 13]Permission denied: '/xxx/xxxx' bash: /bin/ln: Permission denied

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
创建Notebook实例 - AI开发平台ModelArts

后不需要再进相关转化，即可支持模型训练。提供对象存储语义，和Posix语义有区别，需要进一步理解。本地存储重型训练作业首选运行所在虚拟机或者裸金属机器上自带的SSD高性能存储，文件读写的吞吐量大，建议对于重型训练作业先将数据准备到对应目录再启动训练。默认在容器/cach

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
pipeline代码适配 - AI开发平台ModelArts

pipeline代码适配 onnx pipeline的主要作用是将onnx模型进行一系列编排，并在onnx Runtime上按照编排顺序执行。因此，需要将转换得到的mindir模型按照相同的逻辑进行编排，并在MindSpore Lite上执行。只需要将原始onnx的pipelin

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
查看训练作业日志 - AI开发平台ModelArts

查看训练作业日志训练日志定义训练日志用于记录训练作业运行过程和异常信息，为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

总条数： 114

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

迁移适配 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

准备文本分类数据 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

从OBS目录导入数据规范说明 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线