搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = exp

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

用的资源选择。在ECS服务器挂载SFS Turbo存储在ECS服务器挂载SFS Turbo存储后，支持将训练所需的数据通过ECS上传至SFS Turbo。检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练作业找不到GPU - AI开发平台ModelArts

训练作业找不到GPU 问题现象训练作业运行出现如下报错： failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
Lite Server资源开通 - AI开发平台ModelArts

参数名称说明资源类型裸金属服务器是一款兼具弹性云服务器和物理机性能的计算类服务器，为您和您的企业提供专属的云上物理服务器。弹性云服务器是一种可随时自助获取、可弹性伸缩的云服务器，可帮助您打造可靠、安全、灵活、高效的应用环境，确保服务持久稳定运行，提升运维效率。计费模式选择“包年/包月”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
运行第一条Workflow - AI开发平台ModelArts

已完成标注：返回工作流页面，单击“继续运行”。图4 查看实例详情图5 继续运行当工作流运行至服务部署节点，状态为“等待输入”，在“输入”区域选择推理需要使用到的资源规格，完成后选择“继续运行”，等待服务部署完成。计算节点规格：华北-北京四可支持限时免费的规格，但每个用户仅允许创建一个基于此免费规格的实例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？问题现象部署在线服务完成且在线服务处于“运行中”状态时，通过ModelArts console的调用指南tab页签可以获取到推理请求的地址，但是不知道如何填写推理请求的header及body。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

format error" 常见场景为使用自定义镜像创建作业时选择的资源类型和规格错误。例如，自定义镜像是ARM CPU架构，应选用NPU规格的资源，却使用X86 CPU/X86 GPU规格的资源。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

资源调度点创建训练作业开始到变成运行中的时间（资源充足、镜像已缓存）。 20秒训练列表页打开已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
配置Standard专属资源池可访问公网 - AI开发平台ModelArts

场景介绍当您使用专属资源池创建作业时（如训练作业），如果需要作业运行过程中需要专属资源池访问外网，首先专属资源池通过打通VPC的方式，使得专属资源池和已绑定EIP的弹性云服务器实现网络对等连接；然后对已绑定EIP的弹性云服务器配置公网NAT网关，实现公网访问；通过这种方式专属资源池不用另外配置公网NAT网关即可访问公网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业运行失败排查指导 - AI开发平台ModelArts

训练作业运行失败排查指导问题现象训练作业的“状态”出现“运行失败”的现象。原因分析及处理方法查看训练作业的“日志”，出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

可优化点，其提供了丰富的调优分析手段，可视化呈现真实软硬件运行数据，多维度分析性能瓶颈点，支持百卡、千卡及以上规模的可视化集群性能分析，助力开发者天级完成性能调优。 MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能，借助于数据库支持超大性能数

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Server，ECS）是由CPU、内存、操作系统、云硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件在服务器（ModelArts Lite云服务器或者是本地Windows/Linux等服务器）上登录Gallery CLI配置工具后，通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。命令说明登录Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求（例如ChatGP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
查询训练作业的运行指标 - AI开发平台ModelArts

描述 metrics Array of objects 运行指标。表4 metrics 参数参数类型描述 metric String 运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemU

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

获取待上传的文件名获取待上传的文件在服务器的绝对路径。上传单个文件在服务器执行如下命令，可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示，表示将服务器上的文件“D:\workplace\m

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
配置Lite Server网络 - AI开发平台ModelArts

单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性公网IP用于多个Server服务器：一个VPC配置一个EIP（弹性公网IP），通过NAT网关配置进行EIP资源共享，实现该VPC下的所有Server服务器均可以通过该E

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
VS Code手动连接Notebook - AI开发平台ModelArts

ModelArts的Notebook开发环境中，调试和运行代码。本章节介绍基于VS Code环境访问Notebook的方式。前提条件已下载并安装VS Code。详细操作请参考安装VS Code软件。用户本地PC或服务器的操作系统中建议先安装Python环境，详见VSCode官方指导。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
代码运行故障 - AI开发平台ModelArts

代码运行故障 Notebook运行代码报错，在'/tmp'中到不到文件 Notebook无法执行代码，如何处理？运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？如何处理使用opencv.imshow造成的内核崩溃？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境

总条数： 1427

上一页
1
2
3
4
5
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

运行第一条Workflow - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

配置Standard专属资源池可访问公网 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

VS Code手动连接Notebook - AI开发平台ModelArts

代码运行故障 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线