搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint接续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
查看训练作业资源占用情况 - AI开发平台ModelArts

提升数据读取的效率：如果读取一个batch数据的时间要长于GPU/NPU计算一个batch的时间，就有可能出现GPU/NPU利用率上下浮动的情况。建议优化数据读取和数据增强的性能，例如将数据读取并行化，或者使用NVIDIA Data Loading Library（DALI）等工具提高数据增强的速度。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
剪枝 - AI开发平台ModelArts
剪枝 - AI开发平台ModelArts

seed：可选，随机数种子。 sparsity：可选，剪枝稀疏度，稀疏度越大剪枝压缩率越高，默认0.1。 memory_efficient：可选，优化剪枝过程中的显存使用，推荐传入。 eval：可选，是否进行压缩后模型的PPL评估。如果输入此参数，在wikitext2以及c4数据上进行PPL计算。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

DeepSpeed是开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。 GPT2 GPT2（Generative

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
昇腾云服务6.3.912版本说明 - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

模型适配：针对昇腾迁移模型必要的转换和改造。模型准备，导出和保存确定格式的模型。转换参数准备，准备模型业务相关的关键参数。模型转换，包含模型转换、优化和量化等。应用集成。针对转换的模型运行时应用层适配。数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

matmul、swiglu、rope等算子性能提升，支持vllm推理场景支持random随机数算子，优化FFN算子，满足AIGC等场景支持自定义交叉熵融合算子，满足BMTrain框架训练性能要求优化PageAttention算子，满足vllm投机推理场景支持CopyBlocks算子，满足vllm框架beam

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.905版本说明 - AI开发平台ModelArts

Scatter、Gather算子性能提升，满足MoE训练场景 matmul、swiglu、rope等算子性能提升，支持vllm推理场景新增random随机数算子，优化FFN算子，满足AIGC等场景无父主题：产品发布说明

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明

总条数： 274

上一页
1
...
7
8
9
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

昇腾云服务6.3.909版本说明 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

剪枝 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

昇腾云服务6.3.912版本说明 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

昇腾云服务6.3.905版本说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线