搜索_华为云

模型训练使用流程 - AI开发平台ModelArts

两个过程可以相互转换。如开发阶段代码稳定后，则会进入实验阶段，通过不断尝试调整超参来迭代模型；或在实验阶段，有一个可以优化训练的性能的想法，则会回到开发阶段，重新优化代码。图1 模型开发过程 ModelArts提供了模型训练的功能，方便您查看训练情况并不断调整您的模型参数。您还可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

步骤六增加适配代码 # 安装优化加速包 cd ${container_work_dir}/multimodal_algorithm/ascendcloud_multimodal_plugin pip install -e . # 使能优化加速包step1(此步默认在环境安装阶段已完成)

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
MaaS使用场景和使用流程 - AI开发平台ModelArts

MaaS集成了业界主流开源大模型，含Llama、Baichuan、Yi、Qwen、DeepSeek模型系列，所有的模型均基于昇腾AI云服务进行全面适配和优化，使得精度和性能显著提升。开发者无需从零开始构建模型，只需选择合适的预训练模型进行微调或直接应用，减轻模型集成的负担。零代码、免配置、免调优模型开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

SDK版本说明表1 ModelArts SDK版本说明发布时间版本号说明 2023-04 1.4.18 1.4.18版本在SDK旧版本基础上优化集成，主要新增DLI Spark任务提交能力，支持服务部署到推理新版专属资源池。支持的区域当前支持的“region_name”包括华北

 帮助中心 > AI开发平台ModelArts > SDK参考
查看诊断报告 - AI开发平台ModelArts

N性能较差。 schedule - affinity api 下发维度，自动识别可替换的亲和API（融合算子API如rms_norm，亲和优化器如NpuFusedAdamw）。 communication - small packet 通信维度，识别因batch过小或者梯度累积较少导致的未充分利用机内通信带宽。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
昇腾云服务6.3.907版本说明 - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

训练故障自动恢复用户在训练模型过程中，存在因硬件故障而产生的训练失败场景。针对硬件故障场景，ModelArts提供容错检查功能，帮助用户隔离故障节点，优化用户训练体验。容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离故障硬件并重新

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
什么是Workflow - AI开发平台ModelArts

估等，让AI项目管理者能很方便的查看流水线执行过程的质量与效率。流程优化：围绕流水线每一次迭代，用户可以自定义输出相关的核心指标，并获取相应的问题数据与原因等，从而基于这些指标，快速决定下一轮迭代的执行优化。 Workflow介绍 Workflow（也称工作流，下文中均可使用工

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-smi”命令功能获取相关信息，存在锁死的风险。出现D+进程后可以尝试如下方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

ape下遇到性能问题。MindSporeLite提供了Flash Attention编译优化机制，您可以考虑升级最新版本的MindSporeLite Convertor来进行编译器的算子优化，在大Shape场景下会有明显的改善。同样功能的PyTorch Pipeline，因为指导要求适配onnx

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

需求进行修改。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器断点续训：加载权重+优化器 sft、dpo model_name_or_path=xxx train_from_scratch=true model_name_or_path=xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

ne.py 文件，加入如下命令，用于引入优化代码包。 from ascendcloud_multimodal.train.models.internvl2 import ascend_modeling_internvl 执行如下命令添加优化代码。 cp -rf multimoda

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 274

上一页
1
...
6
7
8
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练使用流程 - AI开发平台ModelArts

LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

MaaS使用场景和使用流程 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

昇腾云服务6.3.907版本说明 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

InternVL2基于LIte Server适配PyTorch NPU训练指导（6.3.912） - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线