搜索_华为云

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
断点续训练 - AI开发平台ModelArts

断点续训练断点续训练是指因为某些原因导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
推理前的权重合并转换 - AI开发平台ModelArts

推理前的权重合并转换模型训练完成后，训练的产物包括模型的权重、优化器状态、loss等信息。这些内容可用于断点续训、模型评测或推理任务等。在进行模型评测或推理任务前，需要将训练后生成的多个权重文件合并，并转换成Huggingface格式的权重文件。权重文件的合并转换操作都要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
访问容器目录时提示Permission denied - AI开发平台ModelArts

访问容器目录时提示Permission denied 由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod 777 -R ${dir} 父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 常见问题
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
Notebook专属预置镜像列表 - AI开发平台ModelArts

Notebook专属预置镜像列表 ModelArts开发环境提供Docker容器镜像，可作为预构建容器运行。预置镜像里面包含PyTorch，Tensorflow，MindSpore等常用AI引擎框架，镜像命名以AI引擎为主，并且每个镜像里面都预置了很多常用包，用户可以直接使用而无需重新安装。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
镜像方案说明 - AI开发平台ModelArts

ed文件夹中。下载后的源码文件结构如下： AscendSpeed/ |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |——src/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址问题现象完成在线服务部署且服务处于“运行中”状态后，已经通过调用指南页面的信息获取到调用的server端地址，但是调用发起方的客户端访问该地址不通，出现无法连接、域名无法解析的现象。原因分析在调用指南页签中显示的调用地

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
VS Code连接开发环境失败时，请先进行基础问题排查 - AI开发平台ModelArts

VS Code连接开发环境失败时，请先进行基础问题排查 VS Code连接开发环境失败时，请参考以下步骤进行基础排查：排查插件包是否为最新版：在extensions中搜索，看是否需要升级。检查实例状态是否为运行中，如果是，请执行下一步继续排查。在VS Code的Termin

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 kv-cache-int8是实验特性，在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化，支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见表1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
其他性能分析工具 - AI开发平台ModelArts

其他性能分析工具对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景，昇腾提供了性能比对工具compare_tools，通过对训练耗时和内存占用的比对分析，定位到具体劣化的算子，帮助用户提升性能调优的效率。工具将训练耗时拆分为计算、通信、调度三大维度，并针对计算和通信分

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

准备环境本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
准备镜像环境 - AI开发平台ModelArts

准备镜像环境 Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

准备环境本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。资源规格要求计算规格：不同模型训练推荐的NPU卡数请参见表2。硬盘空间：至少200GB。 Ascend资源规格： Ascend: 1*ascend-snt9b表示Ascend单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练前提条件已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 修改训练超参配置以llama2-13b SFT微调为例，执行脚本 0_pl_sft_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误保存ckpt时超时报错父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
预训练数据处理 - AI开发平台ModelArts

预训练数据处理训练前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。这里以Llama2-70B为例，对于Llama2-7B和Llama2-13B，操作过程与Llama2-70B相同，只需修改对应参数即可。 Alpaca数据处理说明数据预处理脚本preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 SFT全参微调数据处理 SFT全参微调权重转换 SFT全参微调任务父主题： LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
预训练任务 - AI开发平台ModelArts

预训练任务配置预训练脚本qwen.sh中的超参，并执行预训练任务。这里以Qwen-14B为例，对于Qwen-7B和Qwen-72B，操作过程与Qwen-14B相同，只需修改对应参数即可。预训练超参配置预训练脚本qwen.sh，存放在“xxx-Ascend/llm_trai

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

总条数： 2293

上一页
1
...
99
100
101
...
115
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调训练 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

推理前的权重合并转换 - AI开发平台ModelArts

访问容器目录时提示Permission denied - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

Notebook专属预置镜像列表 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

作为调用发起方的客户端无法访问已经获取到的推理请求地址 - AI开发平台ModelArts

VS Code连接开发环境失败时，请先进行基础问题排查 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

其他性能分析工具 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线