搜索_华为云

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

ModelArts训练中不同规格资源“/cache”目录的大小是多少？在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？如果用户的代码中训练任务是单进程的，使用Notebook 8核64GB，72核512GB训练的速度是基本一致的，例如用户用的是2核4GB的资源，使用4核8GB，或者8核64GB效果是一样的。如果用户

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

由于Diffusers社区的“single model file policy”设计原则，不同的pipeline是不同路径在独立演进的。请先确保应用输出符合预期后，再进入到MindSpore Lite模型转换的过程，否则迁移昇腾后还是会遇到同样的问题。 AOE的自动性能调优使用上完全没有效果怎么办？

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
附录：训练常见问题 - AI开发平台ModelArts

新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
附录：训练常见问题 - AI开发平台ModelArts

新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题 MindSpore Lite问题定位指南模型转换报错如何查看日志和定位？日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
附录：训练常见问题 - AI开发平台ModelArts

新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
通用问题 - AI开发平台ModelArts
通用问题 - AI开发平台ModelArts

通用问题 ModelArts中提示OBS相关错误

 帮助中心 > AI开发平台ModelArts > 故障排除
精度问题概述 - AI开发平台ModelArts

Precision等）,则是由于浮点数计算过程的有限字长效应及计算序所带来的近似误差，包括各种计算的数学表达，都会带来结果的近似性。二者是完全不同的两个问题，不能混为一谈。计算数值的近似性一定概率上会影响模型的收敛性，但是影响大模型收敛的原因是复杂且多样的，大模型本身也对计算差异有一定韧性，所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

在ModelArts中同一个账户，图片展示角度不同是为什么？有的图片存在旋转角度等属性，不同的浏览器的处理策略不同，对浏览器的兼容性如表1和表2所示。 L代表last，L3-产品版本上线时最新的3个稳定浏览器版本。如果您当前使用的浏览器版本过低，将在一定程度上影响页面的显示效果，系统会提示您尽快对浏览器进行升级。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
Ascend相关问题 - AI开发平台ModelArts

Ascend相关问题 Cann软件与Ascend驱动版本不匹配训练作业的日志出现detect failed（昇腾预检失败）父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下：本地数据、文件保存将"/cache"目录空间用完。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
GPU相关问题 - AI开发平台ModelArts

GPU相关问题日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
精度问题处理 - AI开发平台ModelArts

精度问题处理设置高精度并重新转换模型在转换模型时，默认采用的精度模式是fp16，如果转换得到的模型和标杆数据的精度差异比较大，可以使用fp32精度模式提升模型的精度（精度模式并不总是需要使用fp32，因为相对于fp16，fp32的性能较差。因此，通常只在检测到某个模型精度存在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
业务代码问题 - AI开发平台ModelArts

业务代码问题日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cuda_frame failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
精度问题诊断 - AI开发平台ModelArts

精度问题诊断逐个替换模型，检测有问题的模型该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
权限问题 - AI开发平台ModelArts
权限问题 - AI开发平台ModelArts

权限问题训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” 日志提示"Permission denied" 父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

总条数： 1554

上一页
1
2
3
4
5
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

通用问题 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

Ascend相关问题 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

GPU相关问题 - AI开发平台ModelArts

精度问题处理 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

权限问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线