搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

保存训练过程记录的日志 LOG 文件。 Step3 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图4 开启故障重启 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
SFT全参微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
查看Standard专属资源池详情 - AI开发平台ModelArts

细介绍见下文。查看资源池中的作业在资源池详情页，切换到“作业”页签。您可以查看该资源池中运行的所有作业，如果当前有作业正在排队，可以查看作业在资源池排队的位置。当前仅支持查看训练作业。查看资源池事件在资源池详情页，切换到“事件”页签。您可以查看资源从创建到添加节点的各个

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询Notebook实例详情 - AI开发平台ModelArts

对Notebook的访问。 dev_service String 访问Notebook的途径，枚举值如下： NOTEBOOK：可以通过https协议访问Notebook。 SSH：可以通过SSH协议远程连接Notebook。 ssh_keys Array of strings S

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

CogVideoX-2b-sat wget https://cloud.tsinghua.edu.cn/f/fdba7608a49c463ba754/?dl=1 mv 'index.html?dl=1' vae.zip unzip vae.zip wget https://cloud.tsinghua

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
重置节点后无法正常使用？ - AI开发平台ModelArts

（推荐）解决方案一（按需使用volcano调度器）： CCE页面上修改默认调度器为kube-scheduler。删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts页面上重置节点。该方案的缺点：用户新建负载时需要手动指定调度器为volcano，参考指导。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
部署推理服务 - AI开发平台ModelArts

DETAIL_TIME_LOG #关闭打印详细日志配置后重启服务生效。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
可视化作业 - AI开发平台ModelArts

可视化作业创建可视化作业查询可视化作业列表查询可视化作业详情更新可视化作业描述删除可视化作业停止可视化作业重启可视化作业父主题：训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
管理同步在线服务 - AI开发平台ModelArts

查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用设置在线服务故障自动重启父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）场景介绍准备工作预训练 SFT全参微调训练 LoRA微调训练开启训练故障自动重启功能查看日志和性能训练脚本说明父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题模型转换失败怎么办？常见的模型转换失败原因可以通过查询转换失败错误码来确认具体导失败的原因。Stable Diffusion新推出的模型在转换中可能会遇到算子不支持的问题，您可以到华为云管理页面上提交工单来寻求帮助。图片大Shape性能劣化严重怎么办？在昇腾设备上

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
查看训练作业详情 - AI开发平台ModelArts

“运行时长” 记录训练作业运行时长，是训练作业全生命周期中多次的k8s资源运行的时长总和。 “重启次数” 记录训练过程中时如果出现故障，作业自动重启的次数。仅当创建训练作业时开启“自动重启”功能时可见。 “描述” 训练作业的描述。您可以单击编辑图标，更新训练作业的描述。 “作业优先级”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

ABCDEFJ....”，则调用接口时将“X-Auth-Token: ABCDEFJ....”加到请求消息头即可，如下所示。 GET https://modelarts.cn-north-1.myhuaweicloud.com/v1/{project_id}/services Content-Type:

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
管理批量服务生命周期 - AI开发平台ModelArts

单击目标服务名称，进入服务详情页面，单击右上角“删除”按钮进行删除。删除操作无法恢复，请谨慎操作。没有委托授权时，无法删除服务。重启服务批量服务不支持重启。父主题：管理批量推理作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

I引擎”。 “容器调用接口” 当“AI引擎”选择“Custom”时，才会显示该参数。模型提供的推理接口所使用的协议和端口号，缺省值是HTTPS和8080，端口和协议需要根据模型实际定义的推理接口进行配置。 “健康检查” 用于指定模型的健康检查。使用Custom引擎时，会显示该参

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
创建生产训练作业 - AI开发平台ModelArts

导请参见设置断点续训练。 “重启次数”的取值范围是1~128，缺省值为3。创建训练后不支持修改重启次数，请合理设置次数。勾选“无条件自动重启”后，只要系统检测到训练异常，就无条件重启训练作业。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。系统支持自动监控作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 1102

上一页
1
...
7
8
9
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

可视化作业 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

管理批量服务生命周期 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线