搜索_华为云

断点续训练 - AI开发平台ModelArts

t接续训练。当需要从训练中断的位置接续训练，只需要加载checkpoint，并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码，使能读取前一次训练保存的预训练模型。断点续训练操作过程 GLM3-6B的断点续训脚本glm3_base

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
推理场景介绍 - AI开发平台ModelArts

cann_8.0.rc2 不同软件版本对应的基础镜像地址不同，请严格按照软件版本和镜像配套关系获取基础镜像。支持的模型列表和权重文件本方案支持vLLM的v0.3.2版本。不同vLLM版本支持的模型列表有差异，具体如表3所示。表3 支持的模型列表和权重获取地址序号模型名称支持vLLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
yaml配置文件参数配置说明 - AI开发平台ModelArts

用于指定预处理数据的工作线程数。随着线程数的增加，预处理的速度也会提高，但也会增加内存的使用。 per_device_train_batch_size 1 必须修改，指定每个设备的训练批次大小。 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

file上层目录。图2 Dockerfile复制文件路径错误解决方案查看用户Dockerfile中的COPY命令中的文件的路径。将要复制的文件放到Dockerfile同级目录或子目录中，如图，Dockerfile在“./.ma/customize_from_ubuntu_18

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

running”状态代表启动成功。 kubectl get pod -A 进入容器，{pod_name}替换为您的pod名字（get pod中显示的名字），{namespace}替换为您的命名空间（默认为default）。 kubectl exec -it {pod_name} bash -n

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
ModelArts Standard资源监控 - AI开发平台ModelArts

Standard资源监控概述在ModelArts控制台查看监控指标在AOM控制台查看ModelArts所有监控指标使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下几种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统使用Python封装API的方式切换操作系统切换操作系统需满足以下条件：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？配置训练专属资源池与SFS弹性文件系统的对等链接，需要资源池打通VPC，使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后，在创建训练作业时，就可以看到SFS的配置选项。打通VPC步骤请参考打通VPC。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

instruction：描述模型应执行的任务。指令中的每一条都是唯一的。 input：任务的可选上下文或输入。instruction对应的内容会与input对应的内容拼接后作为指令，即指令为instruction\ninput。 output：生成的指令的答案。 system：系统提示词

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

instruction：描述模型应执行的任务。指令中的每一条都是唯一的。 input：任务的可选上下文或输入。instruction 对应的内容会与 input 对应的内容拼接后作为指令，即指令为 instruction\ninput。 output：生成的指令的答案。 system：系统提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
推理场景介绍 - AI开发平台ModelArts

cann_8.0.rc1 不同软件版本对应的基础镜像地址不同，请严格按照软件版本和镜像配套关系获取基础镜像。支持的模型软件包和权重文件本方案支持的模型列表、对应的开源权重获取地址如表3所示，模型对应的软件和依赖包获取地址如表1所示。表3 支持的模型列表和权重获取地址序号模型名称

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.904）
查询训练作业列表 - AI开发平台ModelArts

自动化搜索作业的yaml配置路径，需要提供一个OBS路径。 autosearch_framework_path String 自动化搜索作业的框架代码目录，需要提供一个OBS路径。 command String 自定义镜像训练作业的自定义镜像的容器的启动命令。可填code_dir。 parameters

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
创建处理任务 - AI开发平台ModelArts

两大类任务。可通过指定请求体中的复合参数“template”的“id”字段来创建某类任务。 “特征分析”是指基于图片或目标框对图片的各项特征，如模糊度、亮度进行分析，并绘制可视化曲线，帮助处理数据集。 “数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

-max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值，否则推理预测会报错。不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
什么是Workflow - AI开发平台ModelArts

Graph，DAG）的开发。一个DAG是由节点和节点之间的关系描述组成的。开发者通过定义节点的执行内容和节点的执行顺序定义DAG。绿色的矩形表示为一个节点，节点与节点之间的连线则是节点的关系描述。整个DAG的执行其实就是有序的任务执行模板。图3 工作流 Workflow提供的样例 Mod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
AI Gallery（新版） - AI开发平台ModelArts

发布和管理AI Gallery数据集发布和管理AI Gallery项目发布和管理AI Gallery镜像发布和管理AI Gallery中的AI应用使用AI Gallery微调大师训练模型使用AI Gallery在线推理服务部署模型 Gallery CLI配置工具指南计算规格说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

} } 其中，加粗的斜体字段需要根据实际值填写： iam_endpoint为IAM的终端节点。 user_name为IAM用户名。 user_password为用户登录密码。 domain_name为用户所属的账号名。 cn-north-1为项目名，代表服务的部署区域。返回状态码“201

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
推理场景介绍 - AI开发平台ModelArts

获取路径：Support-E 说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。支持的模型列表和权重文件本方案支持vLLM的v0.4.2版本。不同vLLM版本支持的模型列表有差异，具体如表3所示。表3 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
手动部署推理服务 - AI开发平台ModelArts

aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务

总条数： 1860

上一页
1
...
79
80
81
...
93
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

断点续训练 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

用户使用ma-cli制作自定义镜像失败，报错文件不存在（not found） - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

ModelArts Standard资源监控 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？ - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

创建处理任务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

AI Gallery（新版） - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线