搜索_华为云

推理精度测试 - AI开发平台ModelArts

llama3_8b 3200 8 采用默认值 llama3_70b 3200 4 [0, 1, 2] (可选) opencompass也支持通过本地权重来进行ppl精度测试。本质上使用transformers进行推理，因为没有框架的优化，执行时间最长。另一方面，由于是使用transfo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
训练网络迁移总结 - AI开发平台ModelArts

独特的优势，而NPU上的执行目前还是依赖于算子的下发，对于NPU构造的理解是昇腾训练迁移中必备的知识，只有对于昇腾有基础理解，配合一些诊断工具，面对复杂问题时，才能进行进一步诊断与定位，进而发挥NPU的能力。性能调优可以先将重点放在NPU不亲和的问题处理上，确保一些已知的性能问

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
查询插件模板 - AI开发平台ModelArts

npuDriver：NPU驱动 gpuDriver：GPU驱动 ccePlugin：CCE插件 helm：Helm模板 icAgent：ICAgent工具 description String 插件模板描述。 versions Map<String,PluginTemplateVersion>

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询训练作业版本列表 - AI开发平台ModelArts

String 训练作业的本地路径。 read_only Boolean dest_path 是否为只读权限，默认为读写权限。 true：只读权限 false：默认值，读写权限表15 host_path属性列表参数参数类型说明 src_path String 宿主机的本地路径。 dest_path

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
附录：指令微调训练常见问题 - AI开发平台ModelArts

解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训练加速框架的选择，如原使用Accelerator可替换为Deepspeed-ZeRO-1，De

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
什么是Workflow - AI开发平台ModelArts

线在持续产生的数据中持续迭代训练，确保这条流水线生产出来的模型始终维持在一个较好的状态。图1 MLOps MLOps的整条链路需要有一个工具去承载，MLOps打通了算法开发到交付运维的全流程。和以往的开发交付不同，以往的开发与交付过程是分离的，算法工程师开发完的模型，一般都需要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
查询训练作业版本详情 - AI开发平台ModelArts

表13 host_path属性列表参数是否必选参数类型说明 src_path 是 String 宿主机的本地路径。 dest_path 是 String 训练作业的本地路径。 read_only 否 Boolean dest_path 是否为只读权限，默认为读写权限。 true：只读权限

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
管理AI Gallery镜像 - AI开发平台ModelArts

仅支持预览大小不超过10MB、格式为文本类或图片类的文件。下载文件在镜像详情页，选择“镜像文件”页签。单击操作列的“下载”，选择保存路径单击“确认”，即可下载文件到本地。删除文件在镜像详情页，选择“镜像文件”页签。单击操作列的“删除”，确认后即可将已经托管的文件从AI Gallery仓库中删除。文件删除后不可恢复，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 7B lora/dpo 4096/8192 gradient_accumulation_steps:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
Notebook中快速使用MoXing - AI开发平台ModelArts

Notebook中快速使用MoXing 本文档介绍如何在ModelArts中调用MoXing Framework接口。进入ModelArts，创建Notebook实例登录ModelArts管理控制台，在左侧菜单栏中选择“开发空间>Notebook”，进入“Notebook”管理页面。单击“创建”进入“创建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
分离部署推理服务 - AI开发平台ModelArts

理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。前提条件已准备好Server环境，具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的Server和昇腾Snt9b资源。安装过程需要连接互联网git

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
设置断点续训练 - AI开发平台ModelArts

在指定的训练输出的数据存储位置中保存Checkpoint，且“预下载至本地目录”选择“下载”。选择预下载至本地目录时，系统在训练作业启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

核IO已经阻塞，无法执行相关GPU命令，只能尝试释放D+进程。处理方法 “nvidia-smi”是一个NVIDIA GPU监视器命令行工具，用于查看GPU的使用情况和性能指标，可以帮助用户进行GPU优化和故障排除。但是建议在业务软件或训练算法中，避免频繁使用“nvidia-

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ModelArts Standard资源监控概述 - AI开发平台ModelArts

Arts所有监控指标。方式三：通过Grafana查看所有监控指标当AOM的监控模板不能满足用户诉求时，用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板，为用户提供基于网页仪表面板的可视化监控效果，使用户更加直观地查看到实时资源使用情况。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 llama2 7B lora 4096/8192 gradient_accumulation_steps:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
准备模型训练镜像 - AI开发平台ModelArts

场景一：预置镜像满足ModelArts训练平台约束，但不满足代码依赖的要求，需要额外安装软件包。具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已有镜像迁移至ModelArts用于训练模型。场景三：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
创建模型不同方式的场景介绍 - AI开发平台ModelArts

在得到满意的模型后，可以将训练后得到的模型创建为模型，用于部署服务。从OBS中导入模型文件创建模型：如果您使用常用框架在本地完成模型开发和训练，可以将本地的模型按照模型包规范上传至OBS桶中，从OBS将模型导入至ModelArts中，创建为模型，直接用于部署服务。从容器镜像中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<bucket_name>/training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

otebook中的文件上传至OBS，或者下载OBS中的文件至Notebook中。图1 Notebook中上传下载OBS文件使用OBS客户端上传文件的操作指导：上传文件方法一：在Notebook中通过Moxing上传下载OBS文件 MoXing是ModelArts自研的分布式

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

在创建OBS桶创建的桶下创建文件夹用以存放数据，例如在桶standard-llama2-13b中创建文件夹training_data。利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构： obs://<bucket_name>/training_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作

总条数： 1166

上一页
1
...
38
39
40
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

查询插件模板 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

Notebook中快速使用MoXing - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

ModelArts Standard资源监控概述 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

创建模型不同方式的场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

如何在ModelArts的Notebook中上传下载OBS文件？ - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线