搜索_华为云

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

“添加模型说明”，设置“文档名称”及其“URL”。模型说明最多支持3条。 “部署类型” 选择此模型支持部署服务的类型，部署上线时只支持部署为此处选择的部署类型，例如此处只选择在线服务，那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。确认信息填写无误，单击“立即创建”，完成模型的创建。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
设置在线服务故障自动重启 - AI开发平台ModelArts

仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以看到“故障自动重启”参数，打开开关即可。图1 故障自动重启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？问题现象 MobaXterm成功连接到开发环境后，过一段时间会自动断开。可能原因配置MobaXterm工具时，没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

module name 'unidecode'” 问题现象从mindspore开源gitee中master分支下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name 'unidecode'。原因分析 requirements

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，有些模型需要对模型的tokenizer文件，或者模型的配置文件进行修改，具体的修改如下： Qwen-VL 修改文件modeling_qwen.py： # 将36 37 两行注释部分 36 SUPPORT_BF16 = SUPPORT_CUDA

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

原因分析原因是集群没有安装ICAgent。新建特权池时默认会安装ICAgent，可能由于用户自行卸载ICAgent，导致资源池数据显示异常。处理方法登录“应用运维管理”控制台，在“配置管理 > Agent管理”中，选择未安装ICAgent的集群，并单击“安装ICAgent”。图1

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
训练精度测试 - AI开发平台ModelArts

<baseline>：<可选>GP-Ant8机器精度基线Yaml文件路径，不填则使用工具自带基线配置，默认基线配置样例如下：客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

<baseline>：<可选>GP-Ant8机器精度基线Yaml文件路径，不填则使用工具自带基线配置，默认基线配置样例如下：客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
使用PyCharm手动连接Notebook - AI开发平台ModelArts

单击将连接重命名，可以自定义一个便于识别的名字，单击OK。配置完成后，单击Test Connection测试连通性。选择Yes，显示Successfully connected表示网络可以连通，单击OK。在最下方再单击OK保存配置。图2 配置SSH Step2 获取开发环境预置虚拟环境路径

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask只支持布尔（bool）数据类型，或者为None。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask 只支持布

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask只支持布尔（bool）数据类型，或者为None。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
部署模型为在线服务 - AI开发平台ModelArts

文本或文件进行服务测试。如果您的元模型是自定义的，即推理代码和配置文件是自行编写的（配置文件编写说明），“调用指南”只是将您编写的配置文件进行了可视化展示。调用指南的输入参数与配置文件对应关系如下所示。图2 配置文件与调用指南的对应关系不同输入请求的预测方式如下： JSON文本预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

据迁移工作。增加了和OBS交互工作的整个训练流程如下：建议使用OBSutil作为和OBS交互的工具，如何在本机安装obsutil可以参考obsutil安装和配置。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

并打开节点的安全组配置，添加入方向规则，允许外部访问9090端口。如果使用Grafana对接Prometheus制作报表，可以将Grafana部署在集群内，这里不需要对Prometheus绑定公网IP和配置安全组，只需要对Grafana绑定公网IP和配置安全组即可。图1 添加入方向规则

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 1513

上一页
1
...
12
13
14
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

特权池信息数据显示均为0%如何解决？ - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

使用PyCharm手动连接Notebook - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线