搜索_华为云

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

[B, N2, S2, D]，其中 N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

对于GQA，key的shape是 [B, N2, S2, D]，其中N2 ≤ 2048，并且N1是N2的正整数倍。不满足以上场景，则不能实现NPU_Flash_Attn功能。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。以下为使用EVS挂载的开发环境，将数据复制至notebook中的代码示例：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
mc2融合算子报错 - AI开发平台ModelArts

mc2融合算子报错 Yi-34B、Qwen1.5系列、GLM4-9B模型执行lora微调策略任务时产生mc2融合算子错误。图1 mc2融合算子错误解决方法修改代码文件：AscendFactory/scripts_modellink/{model_name}/3_training

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

上传自定义算法前，请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。解析输入路径参数、输出路径参数运行在ModelArts的模型读取存储在OBS服务的数据，或者输出至OBS服务指定路径，输入和输出数据需要配置3个地方：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
删除AI应用 - AI开发平台ModelArts

删除AI应用功能介绍删除AI应用，根据AI应用ID删除指定AI应用，cascade取值为true时除了删除AI应用ID指定的AI应用，还会删除其他与指定AI应用同名不同版本的AI应用；默认只删除当前AI应用ID所对应的AI应用。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
部署推理服务 - AI开发平台ModelArts

推理服务启动脚本中添加此参数表示使用，不添加表示不使用。 --quantization：推理量化参数。当使用量化功能，则在推理服务启动脚本中增加该参数，若未使用量化功能，则无需配置。根据使用的量化方式配置，可选择awq或smoothquant方式。 --speculative-model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

输出的内容不会呈现到前端页面日志）。根据日志中提示的报错信息找到对应的代码进行定位。如果模型启动失败根本没有日志，则考虑使用推理模型调试功能，具体参见：在开发环境中构建并调试推理镜像。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

Step2 创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前通常先创建一个OBS桶，然后在OBS桶中创建文件夹用于存放数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。参考文档利用OBS-Browser-Plus工具将步骤1下载的权重文件上传至步骤2创建的文件夹目录下。得到OBS下数据集结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
迁移过程使用工具概览 - AI开发平台ModelArts

工具MS Convertor、Benchmark和msprof。使用指导详见AIGC工具tailor使用指导。模型转换工具离线转换模型功能的工具MSLite Convertor，支持onnx、pth、tensorflowLite多种类型的模型转换，转换后的模型可直接运行在Mi

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

在运行finetune_ds.sh 时遇到报错在运行finetune_ds.sh 时遇到报错 pydantic_core._pydantic_core.ValidationError: 1 validation error for DeepSpeedZeroConfig sta

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
开发环境计费项 - AI开发平台ModelArts

推理，计算资源不计费。如果运行Notebook实例时，使用公共资源池进行模型训练和推理，计算资源需收费。存储资源费用：数据存储到对象存储OBS、云硬盘EVS、弹性文件服务SFS中的计费。表1 计费项计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
在ModelArts中如何将标注结果下载至本地？ - AI开发平台ModelArts

est格式存储在“数据集输出位置”对应的OBS路径下。路径获取方式：在ModelArts管理控制台，进入“数据管理>数据集”。选择需查看数据集，单击名称左侧小三角，展开数据集详情。可获得“数据集输出位置”指定的OBS路径。进入OBS管理控制台，根据上述步骤获得的路径，找到

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
分离部署推理服务 - AI开发平台ModelArts

cheduler访问P、D实例时走不必要的网关。步骤九开启动态配比调整功能（可选）动态配比调整功能允许服务在运行时根据负载调整全量和增量的数量配比。例如启动时设置全量个数为2，增量个数为2。开启此功能后，服务能够根据负载的特性自动调整为1：3或3：1的全量增量比。全量和增

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
MoXing如何访问文件夹并使用get - AI开发平台ModelArts

se。处理方法获取一个OBS文件夹的大小： import moxing as mox mox.file.get_size('obs://bucket_name/sub_dir_0/sub_dir_1', recursive=True) 获取一个OBS文件的大小： import

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing

总条数： 1820

上一页
1
...
76
77
78
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

mc2融合算子报错 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

删除AI应用 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

开发环境计费项 - AI开发平台ModelArts

在ModelArts中如何将标注结果下载至本地？ - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

MoXing如何访问文件夹并使用get - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线