搜索_华为云

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

一样，则会报错。如果第二次增量训练的epochs数值小于第一次常规训练的epochs数值，则增量训练会出现少训练一个epoch的现象。处理方法第二次增量训练设置的epochs数值需要大于第一次常规训练设置的epochs数值。举例：对一个已经完成的训练作业（假设训练了50个

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
查看日志和性能 - AI开发平台ModelArts

# 训练过程日志 |──preprocessed_data # 训练过程预处理后数据集目录 |──saved_checkpoints # 训练生成权重文件父主题：主

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
订阅免费算法 - AI开发平台ModelArts

单击“继续订阅”即可成功订阅。如果订阅是没有使用约束的算法，则直接成功订阅。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行算法订阅。算法被订阅后，详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
订阅免费模型 - AI开发平台ModelArts

在详情页面您可以查看模型的“描述”、“交付”、“限制”、“版本”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。模型被订阅后，详情页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
订阅Workflow - AI开发平台ModelArts

述”、“交付”、“版本”、“限制”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。 Workflow被订

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
成本管理 - AI开发平台ModelArts
成本管理 - AI开发平台ModelArts

源成本和运维成本构成。成本分配 ModelArts支持企业项目管理，可以由企业项目服务来管理同一账号下不同项目的成本。成本分析通过华为云费用账单来分析账号下的成本支出情况。成本优化长期使用的资源，建议客户使用更优惠的方式购买（包年包月）；针对临时使用的资源，您可选择按需的资源规格，避免浪费。

帮助中心 > AI开发平台ModelArts > 计费说明
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch.distributed.ini

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

无响应参数状态码： 200 表3 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
Lite Cluster资源开通 - AI开发平台ModelArts

由于AI机型规格相对较大，资源池所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小很可能会超出华为云默认提供的资源配额，因此需要申请扩大配额。请先联系客户经理确认资源配额提升具体方案，再参考本章节申请扩大配额。登录华为云管理控制台。在顶部导航栏单击“资源 > 我的配额”，进入服务配额页面。图6

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，“创建方

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
日志提示"write line error" - AI开发平台ModelArts

0G。 “/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练作业进程异常退出 - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用AI案例 - AI开发平台ModelArts

Gallery中分享的案例支持免费订阅，但在使用过程中如果消耗了硬件资源进行部署，管理控制台将根据实际使用情况收取硬件资源的费用。前提条件注册并登录华为云，且创建好OBS桶用于存储数据和模型。订阅并使用AI案例登录“AI Gallery”。选择“案例库”，在下拉框中单击“案例库 >”，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
ModelArts在线服务预测请求体大小限制是多少？ - AI开发平台ModelArts

服务部署完成且服务处于运行中后，可以往该服务发送推理的请求，请求的内容根据模型的不同可以是文本，图片，语音，视频等内容。当使用调用指南页签中显示的调用地址（华为云APIG网关服务的地址）预测时，对请求体的大小限制是12MB，超过12MB时，请求会被拦截。如果是从ModelArts console的

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
查找和收藏资产 - AI开发平台ModelArts

像、Workflow等资产。图1 搜索资产表1 快速搜索方式区域类型搜索方式支持的AI资产 1 搜索华为云官方资产在页面单击“官方”，筛选出所有的华为云官方资产，该类资产均可免费使用。 Notebook、算法、模型 2 搜索精选商品在页面单击“精选”，筛选出所有被标记为精选的资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

个显卡都需要加载相应的内核模块才能正常工作。在这种情况下，也需要手动执行“nvidia-modprobe”命令来加载所有必要的内核模块。处理方法方案1：操作系统内核重新加载nvidia_uvm。 sudo rmmod nvidia_uvm sudo modprobe nvidia_uvm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
SD3基于DevServer适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

SD3基于DevServer适配PyTorch NPU的训练指导（6.3.912） Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts DevServer上使用昇腾计算资源Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

grep nvidia-fabricmanager 卸载并重新安装正确版本的nvidia-fabricmanager，验证CUDA成功。处理方法查看nvidia-fabricmanager的版本，如果nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

的脚本，开始训练。在训练中，程序会自动执行对数据集预处理、权重转换、执行训练等操作，具体可通过查看日志和性能查看日志和性能、训练脚本说明了解解其中的操作。训练完成后在SFS Turbo中保存训练的模型结果。（多机情况下，只有在rank_0节点进行数据预处理，权重转换等工作，所以原始数据集和原

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作

总条数： 603

上一页
1
...
25
26
27
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

订阅免费算法 - AI开发平台ModelArts

订阅免费模型 - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

成本管理 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

使用AI案例 - AI开发平台ModelArts

ModelArts在线服务预测请求体大小限制是多少？ - AI开发平台ModelArts

查找和收藏资产 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

SD3基于DevServer适配PyTorch NPU的训练指导（6.3.912） - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线