搜索_华为云

推理精度测试 - AI开发平台ModelArts

rvice_name}/{eval_dataset}-{timestamp} 的目录结果保存到对应的测试工程。执行多少次，则会在{service_name}下生成多少次结果。单独的评测结果如下： {eval_dataset}-{timestamp} # 例如: mmlu-20240205093257

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

Cluster资源。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。开启高级选项：输入容器引擎空间大小（推荐输入最大空间），容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
查询资源实时利用率 - AI开发平台ModelArts

统计间隔，1s表示1秒，1m表示1分钟，1h为1小时。表7 Value 参数参数类型描述 cpu String cpu量，即计算资源量。 memory String 内存。 tnt004 String GPU卡的数量。表8 ResourceMetricsMetadata 参数参数类型描述 name String

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

PYTORCH_NPU_ALLOC_CONF=expandable_segments:False；llava多卡启动时需要关闭虚拟内存扩展；开启时可能提升模型性能。允许分配器最初创建一个段，然后在以后需要更多内存时扩展它的大小。 --image-input-type：图像输入模式，pixel_values and

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
训练作业进程被kill - AI开发平台ModelArts

在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
查询训练作业指定任务的运行指标 - AI开发平台ModelArts

MetricObject 参数参数类型描述 metric String 运行指标，可选值如下： cpuUsage：CPU使用率 memUsage：物理内存使用率 gpuUtil：GPU使用率 gpuMemUsage：显存使用率 npuUtil：NPU使用率 npuMemUsage：NPU显存使用率

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询作业资源规格 - AI开发平台ModelArts

参数类型说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num Integer 资源规格GPU的个数。 gpu_type String 资源规格GPU的类型。 spec_code String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
迁移过程使用工具概览 - AI开发平台ModelArts

自动切分、thread/block映射、依赖分析和数据搬移等。后端优化：后端优化模块的优化主要包括TensorCore使能、双缓冲区、内存展开和同步指令插入等。性能分析工具 msprof命令行工具提供了采集通用命令以及AI任务运行性能数据、昇腾AI处理器系统数据、Host侧

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
SFT全参微调训练 - AI开发平台ModelArts

高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图3 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表2进行配置。图3 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）
查询AI应用列表 - AI开发平台ModelArts

ModelSpecification object 模型部署最小部署规格。表6 ModelSpecification 参数参数类型描述 min_cpu String 最小CPU规格。 min_gpu String 最小GPU规格。 min_memory String 最小内存。 min_ascend String

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

需要选择填写以下两个参数，其他参数均为默认值，保持不变。计算节点规格：根据您的实际需求选择相应的规格。是否自动停止：为避免资源浪费，建议打开自动停止开关，根据您的实际需要，选择自动停止时间，也可以自定义自动停止的时间。图3 选择计算节点规格图4 设置自动停止参数填写完毕之后，单击运行状

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
模型训练计费项 - AI开发平台ModelArts

计费项计费项说明适用的计费模式计费公式计算资源公共资源池使用计算资源的用量。具体费用可参见ModelArts价格详情。按需计费规格单价 * 计算节点个数 * 使用时长专属资源池专属资源池的费用已在购买时支付，模型训练时不再收费。专属资源池的费用请参考专属资源池计费项。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
推理精度测试 - AI开发平台ModelArts

查看精度测试结果默认情况下，评测结果会按照result/{model_name}/的目录结果保存到对应的测试工程。执行多少次，则会在{model_name}下生成多少次结果。benchmark_eval下生成的log中记录了客户端产生结果。数据集的打分结果在result/{model_name}/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理精度测试 - AI开发平台ModelArts

查看精度测试结果默认情况下，评测结果会按照result/{model_name}/的目录结果保存到对应的测试工程。执行多少次，则会在{model_name}下生成多少次结果。benchmark_eval下生成的log中记录了客户端产生结果。数据集的打分结果在result/{model_name}/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）

总条数： 471

上一页
1
...
9
10
11
...
24
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

推理精度测试 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询资源实时利用率 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查询训练作业指定任务的运行指标 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询AI应用列表 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线