搜索_华为云

（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
训练作业容错检查 - AI开发平台ModelArts

容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离故障硬件并重新下发训练作业。针对于分布式场景，容错检查会检查本次训练作业的全部计算节点。下图中有四个场景，其中场景四为正常训练作业失败场景，其他三个场景下可开启容错功能进行训练作业自动恢复。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
修复Standard专属资源池故障节点 - AI开发平台ModelArts

资源池批量设置多个高可用冗余节点方式一：在购买时设置（仅Snt9C支持）图1 购买时设置参数说明：开启高可用冗余：是否开启资源池的高可用冗余，超节点默认开启高可用冗余。冗余节点分布策略：冗余节点的分布策略，超节点仅支持step均分：每个超节点内预留相同数量的冗余节点。冗余实例数：此

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
数据存储 - AI开发平台ModelArts
数据存储 - AI开发平台ModelArts

数据存储如何对OBS的文件重命名？ Notebook停止或者重启后，“/cache”下的文件还存在么？如何避免重启？如何使用pandas库处理OBS桶中的数据？在Notebook中，如何访问其他账号的OBS桶？ JupyterLab默认工作路径是什么？父主题： Standard

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

部署在线服务时，您可以增加“计算节点个数”。如果节点个数设置为1，表示后台的计算模式是单机模式；如果节点个数设置大于1，表示后台的计算模式为分布式的。您可以根据实际需求进行选择。推理速度与模型复杂度强相关，您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能，方便溯源和模型反复调优。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

SDK参考》 OBS SDK OBS服务提供的SDK，对OBS进行操作。由于ModelArts较多功能需使用OBS中存储的数据，用户可使用OBS SDK进行调用，使用OBS存储您的数据。 OBS提供了多种语言SDK供选择，开发者可根据使用习惯下载OBS SDK进行调用。使用OBS SDK前，需下载OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
使用ModelArts Standard训练模型 - AI开发平台ModelArts

Standard训练模型模型训练使用流程准备模型训练代码准备模型训练镜像创建调试训练作业创建算法创建生产训练作业分布式模型训练模型训练存储加速增量模型训练自动模型优化（AutoSearch）模型训练高可靠性管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
查询Workflow工作流 - AI开发平台ModelArts

参数类型描述 name String 工作流存储的名称。填写1-64位，只包含英文、数字、下划线（_）和中划线（-），并且以英文开头的名称。 type String 工作流存储的类型，当前只支持obs。 path String 统一存储的根路径，当前只支持OBS路径。表16 WorkflowAsset

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；如果是导入模型没有对应的工作权限，可以参考创建自定义策略对相应账号赋予导入模型相关权限。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。裸机的本地磁盘为物理磁盘，无法扩容，如果存储的数据量大，建议使用SFS存放数据，SFS支持扩容。 GPU规格的资源表1

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
模型训练存储加速 - AI开发平台ModelArts

HPC型文件系统来加速对OBS对象存储中的数据访问，并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。图1 基于OBS+SFS Turbo的存储解决方案 OBS + SFS Turbo存储加速的具体方案请查看：面向AI场景使用OBS+SFS Turbo的存储加速实践。设置训练存储加速当完成上传数据至OBS并预热到SFS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户如果购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。其中访

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作

总条数： 693

上一页
1
2
3
4
5
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

（可选）配置镜像预热 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

数据存储 - AI开发平台ModelArts

在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别？ - AI开发平台ModelArts

使用ModelArts Standard训练模型 - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

Lite Cluster资源使用 - AI开发平台ModelArts

训练环境中不同规格资源“/cache”目录的大小 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线