搜索_华为云

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

关默认关闭，节点全部运行。用户可在权限管理页面打开开关，选择指定的场景进行运行。部分运行能力支持同一个节点被定义在不同的运行场景中，但是需要用户自行保证节点之间数据依赖的正确性。另外，部分运行能力仅支持在运行态进行配置运行，不支持在开发态进行调试。父主题： Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
附录：大模型推理常见问题 - AI开发平台ModelArts

drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
创建训练任务 - AI开发平台ModelArts

作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：单机单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
训练日志失败分析 - AI开发平台ModelArts

Standard会对部分常见训练错误给出分析建议，目前还不能识别所有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

ndpoint信息。例如：Endpoint配置不正确也会导致认证失败。错误示例：Endpoint参数前面带了https，正确的配置中不需要有https。图1 配置ToolKit 二、未配置hosts文件或者hosts文件信息配置不正确在本地PC的hosts文件中配置域名和IP地址的对应关系。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
日志提示"Permission denied" - AI开发平台ModelArts

'/xxx/xxxx' 上传数据时文件所属与文件权限未修改，导致训练作业以work用户组访问时没有权限了。在代码目录中的.sh复制到容器之后，需要添加“x”可执行权限。 bash: /bin/ln: Permission denied 因安全问题，不支持用户开通使用In命令。 bash:/home/ma-user/

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

规格：CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数：1个用了一段时间后，用户发现当前规格无法满足业务需要，于2023/03/20 9:00:00扩容规格增加1个节点（扩容后，共有2个节点）。因为该专属资源池打算长期使用下去，于2023/03/20

帮助中心 > AI开发平台ModelArts > 计费说明
单模型性能调优AOE - AI开发平台ModelArts

ata/aoe”路径下，同时会在aoe_output路径下输出对应的mindir模型，由于当前模型并没有吸收知识库信息，所以性能不佳，因此需要在保留AOE知识库的情况下，再次进行转换，以达到较优性能。删除编译缓存atc_data。注意相比第一次清除缓存操作，本次保留了AOE知识库。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

的卡ID不匹配。处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
重置节点后无法正常使用？ - AI开发平台ModelArts

删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts页面上重置节点。该方案的缺点：用户新建负载时需要手动指定调度器为volcano，参考指导。解决方案二（默认全部使用volcano调度器）： CCE页面上配置中心修改默认调度器为kube-scheduler。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

对应请求消息头，响应同样也有消息头，如“Content-type”。对于获取用户Token接口，返回如图1所示的消息头。其中“x-subject-token”就是需要获取的用户Token。有了Token之后，您就可以使用Token认证调用其他API。图1 获取用户Token响应消息头响应消息体响应

 帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

type”，表示MindSpore暂不支持该算子。报错日志中搜到“Convert graph to om failed”，表示CANN模块进行图编译存在保存，需要结合CANN的报错日志和dump图进行具体分析。配置方式参考如下：打开DEBUG日志。设置MindSpore日志环境变量。 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

kubectl logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_d

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910）

总条数： 1550

上一页
1
...
71
72
73
...
78
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

PyCharm ToolKit工具中Edit Credential时，出现错误 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线