搜索_华为云

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

持。 ModelArts Lite资源池对应的CCE集群需要安装1.10.12及以上版本的华为云版Volcano插件。Volcano调度器的安装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。训练使用的Python版本是3.7或3.9，否则无法实现ranktable路由加速。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

训练作业中存在2个代码目录，一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR，一个是后续构建新镜像步骤ECS中构建新镜像（二选一）中镜像的代码目录CODE_DIR。修改代码如图1。图1 修改区分训练作业中2个代码目录使用环境变量SAVE_PA

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
自动学习训练作业失败 - AI开发平台ModelArts

自动学习训练作业失败自动学习训练作业创建失败，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请联系华为云技术支持。自动学习训练作业创建成功，但是在运行过程中，由于一些故障导致作业运行失败，排查方式如下：首次出现请检查您的账户是否欠费。如果账

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
免费资产和商用资产 - AI开发平台ModelArts

当前支持商业售卖的资产类型：算法、模型免费资产使用事项订阅和发布免费资产需要您按照指导注册华为帐号并开通华为云；发布HiLens技能除了需要注册华为账号并开通华为云还需要入驻AI Gallery。发布的免费资产将展示在AI Gallery的公共页签以及“我的Gallery >

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
非分离部署推理服务 - AI开发平台ModelArts

//docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

//docs.vllm.ai/en/latest/getting_started/quickstart.html。以下服务启动介绍的是在线推理方式，离线推理请参见https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。 OBS服务相关报错可根据错误信息（包括errorCode、errorMessage等）判断具体错误原因。具体错误码请参考OBS官方文档：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
LoRA微调训练 - AI开发平台ModelArts

ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像（二选一）构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像（二选一）构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
编排Workflow - AI开发平台ModelArts

wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
订阅Workflow - AI开发平台ModelArts

”、“交付”、“版本”、“限制”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。 Workflow被订阅

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
用户名密码认证模式 - AI开发平台ModelArts

Session(username='***', password='***', region_name='***', project_id='***') 如果您的华为云账号已经升级为华为账号，则账号认证方式将不可用，请创建一个IAM用户，使用IAM用户认证。使用IAM用户认证 “account”填写您的账

 帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
训练启动脚本说明和参数配置 - AI开发平台ModelArts

设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ndSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用ECS中构建新镜像（二选一）构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed;

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
查询镜像详情 - AI开发平台ModelArts

查询镜像详情功能介绍查询镜像详情。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/images/{id}

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

删除镜像功能介绍删除镜像对象，对于个人私有镜像可以通过参数一并删除SWR镜像内容。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作

总条数： 1367

上一页
1
...
64
65
66
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

免费资产和商用资产 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

用户名密码认证模式 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查询镜像详情 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线