搜索_华为云

显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-user/ws/llm_train/LLaMAFactory

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表1进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表1进行设置。可调整参数：MBS指最小batch处理的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
从OBS导入数据到数据集场景介绍 - AI开发平台ModelArts

Manifest文件导入图片图像分类支持可以导入未标注或已标注数据已标注数据格式规范：图像分类支持可以导入未标注或已标注数据已标注数据格式规范：图像分类物体检测支持可以导入未标注或已标注数据已标注数据格式规范：物体检测支持可以导入未标注或已标注数据已标注数据格式规范：物体检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
训练日志失败分析 - AI开发平台ModelArts

重建作业：建议重建作业进行重试，大概率能修复问题。上一步不能解决问题时，可以尝试分析日志中提示的错误信息，定位并解决问题。也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。最后，如果以上均不能解决问题，可以提工单进行人工咨询。父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Manifest管理概述 - AI开发平台ModelArts

文件中也可以只有原始文件信息，没有标注信息，如生成的未标注的数据集。 Manifest文件使用UTF-8编码，Manifest处理程序需具备UTF-8处理能力。 Manifest文件中文本分类的source数值可以包含中文，其他字段不建议用中文。 Manifest文件可以由用户、

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > Manifest管理
查询训练作业详情 - AI开发平台ModelArts

计费码。 unit_num Integer 计费卡数。表36 flavor_info 参数参数类型描述 max_num Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu cpu object cpu规格信息。 gpu gpu object

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练性能测试 - AI开发平台ModelArts

训练性能测试流程图训练性能测试流程图如下图所示：图1 训练性能测试流程执行训练任务进入test-benchmark目录执行训练命令，可以多次执行，卡数及其它配置参考NPU卡数取值表按自己实际情况决定。单机<可选>： # 默认8卡 benchmark-cli train <cfgs_yaml_file>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

间。如果没有文件可以删除，或者不清楚哪些可以删除，那么可以使用相同的镜像重新创建一个Notebook，使用新建的Notebook时，注意减少软件包的安装或文件的下载等操作，也可以减少容器大小；减少镜像文件的大小如果无法确认哪些包或文件可以不安装，那么可以选择一个较小的镜像来

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
保存Notebook实例 - AI开发平台ModelArts

镜像保存时，哪些目录的数据可以被保存可以保存的目录：包括容器构建时静态添加到镜像中的文件和目录，可以保存在镜像环境里。例如：安装的依赖包、“/home/ma-user”目录不会被保存的目录：容器启动时动态连接到宿主机的挂载目录或数据卷，这些内容不会被保存在镜像中。可以通过df -h命

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

镜像保存时，哪些目录的数据可以被保存可以保存的目录：包括容器构建时静态添加到镜像中的文件和目录，可以保存在镜像环境里。例如：安装的依赖包、“/home/ma-user”目录不会被保存的目录：容器启动时动态连接到宿主机的挂载目录或数据卷，这些内容不会被保存在镜像中。可以通过df -h命

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel 使用场景当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel为例进行展示。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 - AI开发平台ModelArts

相同。即用户在Notebook中新建的，或者是从OBS目录中同步的文件。挂载OBS存储的Notebook，JupyterLab目录的文件可以与OBS的文件进行同步，使用JupyterLab文件上传下载功能。Terminal的文件与JupyterLab目录的文件相同。挂载EVS

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。可调整参数：MBS指最小batch处理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
MoXing进阶用法的样例代码 - AI开发平台ModelArts

MoXing进阶用法的样例代码如果您已经熟悉了常用操作，同时熟悉MoXing Framework API文档以及常用的Python编码，您可以参考本章节使用MoXing Framework的一些进阶用法。读取完毕后将文件关闭当读取OBS文件时，实际调用的是HTTP连接读取网络

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令

总条数： 1638

上一页
1
...
67
68
69
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

从OBS导入数据到数据集场景介绍 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

Manifest管理概述 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线