搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。图5 自动重启设置使用API接口设置容错检查：用户可以通过API接口的方式开启自动重启。创建训练作业时，在“metadata”字段的“annotations”中传入“fault-toler

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
获取Workflow工作流列表 - AI开发平台ModelArts

获取Workflow工作流列表功能介绍展示Workflow工作流的列表。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workflows

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
附录：指令微调训练常见问题 - AI开发平台ModelArts

were not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

<instance connection port> user ma-user IdentityFile ~/.ssh/test.pem StrictHostKeyChecking no UserKnownHostsFile /dev/null

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
（可选）本地安装ma-cli - AI开发平台ModelArts

-inform DER -content D:\ma_cli-latest-py3-none-any.whl -noverify > ./test 本示例以软件包在D:\举例，请根据软件包实际路径修改。 Step3：安装ma-cli 在本地环境cmd中执行命令python --ve

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
执行预训练任务 - AI开发平台ModelArts

执行预训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

执行预训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

服务IP和端口号。 API接口： GET /v1/{project_id}/services/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
查询训练作业的运行指标 - AI开发平台ModelArts

Usage（NPU显存使用率）。 value Array of numbers 运行指标对应数值，1min统计一个平均值。表5 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

发送请求的模块，在这里修改请求响应。目前支持vllm.openai，atb的tgi模板 ├── ... ├── eval_test.py # 启动脚本，建立线程池发送请求，并汇总结果 ├── service_predict.py # 发送请求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
VS Code ToolKit连接Notebook - AI开发平台ModelArts

VS Code ToolKit连接Notebook 本节介绍如何在本地使用ModelArts提供的VS Code插件工具VS Code ToolKit，协助用户完成SSH远程连接Notebook。 VS Code ToolKit功能介绍前提条件已下载并安装VS Code。详细操作请参考安装VS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
更新服务配置 - AI开发平台ModelArts

time时需要配置，多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，持续地访问此服务的预测接口，ModelArts会按此权重比例将预测请求转发到对应的模型版本实例。 specification 是 String 资源规格，当前版本可选modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询Workflow工作流 - AI开发平台ModelArts

查询Workflow工作流功能介绍通过ID查询Workflow工作流详情。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{pro

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

/home/ma-user/work/envs/user_conda/sfs-tar-env test-env /home/ma-user/work/envs/user_conda/test-env 父主题： Standard开发环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
MoXing进阶用法的样例代码 - AI开发平台ModelArts

MoXing进阶用法的样例代码如果您已经熟悉了常用操作，同时熟悉MoXing Framework API文档以及常用的Python编码，您可以参考本章节使用MoXing Framework的一些进阶用法。读取完毕后将文件关闭当读取OBS文件时，实际调用的是HTTP连接读取网

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
Prefix Caching - AI开发平台ModelArts

启用Prefix Cache特性是在起服务时指定，属于action类型参数。表2 开启Prefix Cache特性服务的代码样例服务启动方式接口服务启动基础命令 offline - LLM(model="facebook/opt-125m", enable_prefix_caching=True)

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。硬盘空间：至少200GB。昇腾资源规格：

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作

总条数： 781

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

获取Workflow工作流列表 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

（可选）本地安装ma-cli - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

查询Workflow工作流 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

Prefix Caching - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线