搜索_华为云

Standard开发环境 - AI开发平台ModelArts

对于使用本地IDE的开发者，由于本地资源限制，运行和调试环境大多使用团队公共搭建的资源服务器，并且是多人共用，这带来一定的环境搭建和维护成本。而ModelArts的Notebook的优势是即开即用，它预先装好了不同的AI引擎，并且提供了非常多的可选规格，用户可以独占一个容器环境，不

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
SFT全参微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
更新资源池 - AI开发平台ModelArts

描述 flavor 是 String 资源规格。 count 是 Integer 相应规格的资源数量。 azs 否 Array of PoolNodeAz objects 更新的AZ列表。表8 PoolNodeAz 参数是否必选参数类型描述 az 是 String 可用区名称。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-6.3.911-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
分离部署推理服务 - AI开发平台ModelArts

--replan-interval：重新计算pd配比转换的间隔时间，默认6000，单位为秒 --profile-input-len：profiling的输入长度，默认"64,256,2048"，服务会在启动时测算这些输入长度数据的执行时间，该数量会影响服务启动时间，建议不超过10个 --profile-

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
部署推理服务 - AI开发平台ModelArts

Step6 启动推理服务配置需要使用的NPU卡编号。例如：实际使用的是第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
创建自动模型优化的训练作业 - AI开发平台ModelArts

持值与算法管理模块的超参设置对应。完成超参搜索作业的创建后，训练作业需要运行一段时间。查看超参搜索作业详情训练作业运行结束后，可以查看自动超参搜索结果判断此训练作业是否满意。如果训练作业是超参搜索作业，进入训练作业详情页，选择“自动超参搜索结果”页签查看超参搜索结果。图3

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
创建资源池失败 - AI开发平台ModelArts

于失败状态的资源池信息。图1 创建失败资源池信息鼠标悬停在“状态”列的上，即可看到该操作失败的具体原因。失败的记录默认按照操作的申请时间排序，最多显示500条并保留3天。父主题：资源池

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

AscendCloud-6.3.906-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 准备工作
推理场景介绍 - AI开发平台ModelArts

资源规格推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9B资源。推理部署使用的服务框架是vLLM。vLLM支持v0.3.2。支持FP16和BF16数据类型推理。资源规格要求本文档中的模型运行环境是ModelArts Lite的Server。推荐使用“西南-贵阳一”Region上的资源和Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
创建资源池 - AI开发平台ModelArts

请求Body参数参数是否必选参数类型描述 apiVersion 是 String API版本。可选值如下： v2 kind 是 String 资源类型。可选值如下： Pool：资源池 metadata 是 PoolMetadataCreation object 资源池的metadata信息。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
SFT全参微调训练 - AI开发平台ModelArts

MOSSMultiTurnHandler：使用微调的moss数据集。 MBS 4 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 512 表

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
查询节点池的节点列表 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。表2 Query参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

AscendCloud-6.3.907软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理

总条数： 1073

上一页
1
...
25
26
27
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Standard开发环境 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

创建资源池失败 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

查询节点池的节点列表 - AI开发平台ModelArts

Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线