搜索_华为云

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider = "ge" 父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况约束限制训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
保存Notebook实例 - AI开发平台ModelArts

status processes”如何解决？镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？保存镜像时报错“too many layers in your image”如何解决？镜像保存时报错“The container

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

status processes”如何解决？镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？保存镜像时报错“too many layers in your image”如何解决？镜像保存时报错“The container

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用窍门 - AI开发平台ModelArts
使用窍门 - AI开发平台ModelArts

使用窍门创建项目时，如何快速创建OBS桶及文件夹？自动学习生成的模型，存储在哪里？支持哪些其他操作？父主题：使用自动学习实现零代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
其他故障 - AI开发平台ModelArts
其他故障 - AI开发平台ModelArts

其他故障 Notebook中无法打开“checkpoints”文件夹创建新版Notebook无法使用已购买的专属资源池，如何解决？在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
资源池 - AI开发平台ModelArts
资源池 - AI开发平台ModelArts

资源池创建资源池失败 Standard资源池节点故障定位资源池推理服务一直初始化中如何解决专属资源池关联SFS Turbo显示异常

 帮助中心 > AI开发平台ModelArts > 故障排除
ModelArts最佳实践案例列表 - AI开发平台ModelArts

本案例介绍如何将Notebook的Conda环境迁移到SFS磁盘上。使用ModelArts VSCode插件调试训练ResNet50图像分类模型 MindSpore VS Code Toolkit工具目标检测本案例以Ascend Model Zoo为例，介绍如何通过VS Code插件及ModelArts

帮助中心 > AI开发平台ModelArts > 最佳实践
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

incompatible. Please install mmcv>=1.3.1, <=1.5.0。原因分析 MMCV的依赖与PyTorch版本不匹配。处理方法可参考链接的内容，根据PyTorch和CUDA版本安装对应版本的MMCV。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
FAQ - AI开发平台ModelArts
FAQ - AI开发平台ModelArts

CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装如何保证训练和调试时文件路径保持一致父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题 MindSpore Lite问题定位指南模型转换报错如何查看日志和定位？日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

is killed by signal: Killed BP。原因分析由于batch size过大，导致Dataloader进程退出。处理方法请调小batch size的数值。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“No space left on device” - AI开发平台ModelArts

创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
查询所有Notebook实例列表 - AI开发平台ModelArts

uri String 实例私有IP地址。表7 Image 参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例列表 - AI开发平台ModelArts

uri String 实例私有IP地址。表7 Image 参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

7.6（PyTorch自带，无需关心） pytorch version : 1.X.X-cu102 CUDA Compatibility如何使用？当CUDA 10.2与低版本GPU驱动（440.33以下）配合使用时，可能会出现兼容问题，此时需要使用CUDA Compatibi

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ

总条数： 1180

上一页
1
...
37
38
39
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练脚本说明 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

使用窍门 - AI开发平台ModelArts

其他故障 - AI开发平台ModelArts

资源池 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

FAQ - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线