搜索_华为云

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：线下容器镜像构建及调试上传镜像上传数据至OBS（首次使用时需要）

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
工具介绍及准备工作 - AI开发平台ModelArts

、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。代码目录 benchmark工具脚本存放在代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

裸金属服务器EulerOS 2.8系统下，使用yum update -y命令，导致软件NetworkManagre-config-server升级到高版本，出现SSH链接故障无法访问。原因分析查看yum命令历史，发现执行了“yum update -y”，“yum update -y”命

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

弹性集群Cluster”，进入“Standard资源池”页面。在资源池列表中，选择某个资源池右侧操作列的“ > 设置作业类型”。在“设置作业类型”弹窗中，选择需要设置的作业类型。图1 设置作业类型设置完成后，单击“确定”，启用作业类型。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
工具介绍及准备工作 - AI开发平台ModelArts

、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。代码目录 benchmark工具脚本存放在代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。准备数据登录coco数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

问题现象创建LoRA调优任务，选择支持Modellink框架类型的模型Qwen2-0.5B，数据集选择MOSS格式的jsonl数据，添加超参设置，创建调优任务失败。关键日志报错： AttributeError: 'Parameter' object has no attribute

帮助中心 > AI开发平台ModelArts > 常见问题 > Studio
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

Arts监控服务。设置告警规则有多种方式。您可以根据实际应用场景，选择设置告警规则的方式。对ModelArts服务设置告警规则对单个服务设置告警规则对模型版本设置告警规则对服务或模型版本的单个指标设置告警规则方式一：对整个ModelArts服务设置告警规则登录管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
场景描述 - AI开发平台ModelArts
场景描述 - AI开发平台ModelArts

子账号的权限，由主用户来控制，主用户通过IAM的权限配置功能设置用户组的权限，从而控制用户组内的子账号的权限。此处的授权列表均按照ModelArts和其他服务的系统预置策略来举例。表1 服务授权列表待授权的服务授权说明 IAM权限设置是否必选 ModelArts 授予子账号使用ModelArts服务的权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。因此推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练作业找不到GPU - AI开发平台ModelArts

detected 原因分析根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
管理训练容器环境变量 - AI开发平台ModelArts

API网关地址环境变量作业元信息环境变量约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业页面增加新的环境变量，也可以设置新的取值覆盖当前训练容器中预置的环境变量值。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

IAM 介绍ModelArts所有功能涉及到的IAM权限配置。 IAM权限简介如果您需要为企业中的员工设置不同的权限访问ModelArts资源，以达到不同员工之间的权限隔离，您可以使用统一身份认证服务（Identity and Access Management，简称IAM）进

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

对于不支持断点训练的模型，如果选择训练输出路径不是空目录，会出现该报错。处理方法对于不支持断点训练的模型，请您将模型的输出路径train_url设置为空目录。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
重置节点后无法正常使用？ - AI开发平台ModelArts

重置节点后无法正常使用？问题现象当ModelArts Lite的CCE集群在资源池上只有一个节点，且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
创建ModelArts数据增强任务 - AI开发平台ModelArts

设置场景类别和数据处理类型设置输入与输出。需根据实际数据情况选择“数据集”或“OBS目录”。设置为“数据集”时，需填写“数据集名称”和“数据集版本”；设置为“OBS目录”时，需填写正确的OBS路径。图2 输入输出设置-数据集图3 输入输出设置-OBS目录确认参数填写无误后，单击“创建”，完成数据处理任务的创建。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
精度问题诊断 - AI开发平台ModelArts

该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程一般情况下，onn

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优

总条数： 842

上一页
1
2
3
4
5
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

创建Qwen2-0.5B或Qwen2-1.5B模型的LoRA微调类型的调优任务，显示创建失败 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

场景描述 - AI开发平台ModelArts

在ModelArts训练代码中，如何获取依赖文件所在的路径？ - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

日志提示“Please set the train_url to an empty obs directory” - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

创建ModelArts数据增强任务 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线