搜索_华为云

查看批量服务的事件 - AI开发平台ModelArts

到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件信息（“XXX”表示占位符，以实际返回信息为准）解决方案正常开始部署服务。 Start to deploy service. - 异常资源不足，等待资源释放。 Lack of resources

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├── evaluators ├── evaluator.py # 数据集数据预处理方法集 ├── model.py # 发送请求的模块，在这里修改请求响应。目前支持vllm.openai，atb的tgi模板

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
Lite Cluster - AI开发平台ModelArts
Lite Cluster - AI开发平台ModelArts

Lite Cluster 资源池创建失败的原因与解决方法？ Cluster资源池节点故障如何定位特权池信息数据显示均为0%如何解决？重置节点后无法正常使用？

帮助中心 > AI开发平台ModelArts > 故障排除
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

运行社区最新发行的Grafana版本： docker run -d -p 3000:3000 grafana/grafana-oss 在BMS页面打开Grafana所在节点的安全组配置，添加入方向规则，允许外部访问3000、9090端口：在浏览器地址栏输入xx.xx.xx.xx:3000，登录Grafana，默认

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
订阅Workflow - AI开发平台ModelArts

、“版本”、“限制”和“评论”等信息。在详情页面单击“订阅”。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行模型订阅。 Workflow被订阅后，详情页的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

会提示 ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练时预处理后的数据存放地址 ├── alpaca_gpt4_data.json #微调数据文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
Bert基于DevServer适配MindSpore Lite 推理指导(6.3.910) - AI开发平台ModelArts

Bert基于DevServer适配MindSpore Lite 推理指导(6.3.910) 方案概览本方案介绍了在ModelArts的DevServer上使用昇腾Atlas 300I Duo推理卡计算资源，部署Bert-base-chinese模型推理的详细过程。完成本方案的部

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的微调方案，包括SFT全参微调、LoRA微调、DPO训练方案。 DPO(Direct Preference

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
训练启动脚本说明和参数配置 - AI开发平台ModelArts

）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过Notebook环境编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

会提示 |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练时预处理后的数据存放地址 |── alpaca_gpt4_data.json #微调数据文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 准备工作
网卡名称错误 - AI开发平台ModelArts

网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？问题现象或原因分析可能为/home/ma-user/work磁盘空间不足。解决方法删

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

检查报错的路径是否存在由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例： |---project_root #代码根目录

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
分离部署推理服务 - AI开发平台ModelArts

需要使用不同端口号 --model：HuggingFace下载的官方权重 --max-num-seqs：同时处理的最大句子数量 --max-model-len：模型能处理的请求输入+输出的token长度 --max-num-batched-tokens：最多会使用多少token，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务

总条数： 951

上一页
1
...
22
23
24
...
48
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看批量服务的事件 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

订阅Workflow - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Bert基于DevServer适配MindSpore Lite 推理指导(6.3.910) - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决？ - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线