搜索_华为云

训练过程中无法找到so文件 - AI开发平台ModelArts

一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：在

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Method Not Allowed - AI开发平台ModelArts

Not Allowed 原因分析服务预测默认注册的API需要使用POST方法调用。如您使用了GET方法，APIG（API网关）将会拦截请求。处理方法使用POST方法调用。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
日志提示Compile graph failed - AI开发平台ModelArts

failed 问题现象日志提示：Compile graph failed。图1 报错提示原因分析模型转换时未指定Ascend后端。处理方法需要在模型转换阶段指定“--device=Ascend”。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

2312-aarch64-snt9b-20240824153350-cebb080 CANN：cann_8.0.rc3 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

2406-aarch64-snt9b-20240910112800-2a95df3 CANN：cann_8.0.rc3 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
MoXing Framework功能介绍 - AI开发平台ModelArts

MoXing Framework功能介绍 MoXing Framework模块为MoXing提供基础公共组件，例如访问华为云的OBS服务，和具体的AI引擎解耦，在ModelArts支持的所有AI引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。目前，提供的MoXing

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider = "ge" 父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况约束限制训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
保存Notebook实例 - AI开发平台ModelArts

status processes”如何解决？镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？保存镜像时报错“too many layers in your image”如何解决？镜像保存时报错“The container

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

status processes”如何解决？镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？保存镜像时报错“too many layers in your image”如何解决？镜像保存时报错“The container

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

is killed by signal: Killed BP。原因分析由于batch size过大，导致Dataloader进程退出。处理方法请调小batch size的数值。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“No space left on device” - AI开发平台ModelArts

创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

incompatible. Please install mmcv>=1.3.1, <=1.5.0。原因分析 MMCV的依赖与PyTorch版本不匹配。处理方法可参考链接的内容，根据PyTorch和CUDA版本安装对应版本的MMCV。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
LoRA微调训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

问题现象 AI Gallery中的YOLOv5算法，训练结束后没有显示模型评估结果。原因分析未标注的图片过多，导致没有模型评估结果。处理方法对所有训练数据进行标注。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
模型推理代码编写说明 - AI开发平台ModelArts

_postprocess(self, data) 后处理方法，在推理请求完成后调用，用于将模型输出转换为API接口输出。用户可以选择重写preprocess和postprocess方法，以实现API输入数据的预处理和推理输出结果的后处理。重写模型父类的初始化方法init可能导致模型“运行异常”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用Notebook代码样例 - AI开发平台ModelArts

使用Notebook代码样例在AI Gallery中，您可以查找并直接打开使用Notebook实例。前提条件注册并登录华为云，详细操作请参见准备工作。打开Notebook实例登录“AI Gallery”。选择“资产集市 > Notebook”，进入Notebook页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如果超过最大递归深度，建议您在启动文件中增大递归调用深度，具体操作如下： import sys sys.setrecursionlimit(1000000)

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在线服务预测报错DL.0105 - AI开发平台ModelArts

’object is not subscriptable”。原因分析根据报错日志分析，是因为一个float数据被当做对象下标访问了。处理方法将模型推理代码中的x[0][i]修改为x[i]，重新部署服务进行预测。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 1628

上一页
1
...
58
59
60
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练过程中无法找到so文件 - AI开发平台ModelArts

Method Not Allowed - AI开发平台ModelArts

日志提示Compile graph failed - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

MoXing Framework功能介绍 - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用订阅算法训练结束后没有显示模型评估结果 - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

使用Notebook代码样例 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

在线服务预测报错DL.0105 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线