搜索_华为云

SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

进入容器。默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec -it sdxl-train bash Step5 修改算法脚本进入容器后，修改启动脚本文件。 vi /home/ma-user/sdxl-train/user-job-dir/code/diff

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
查询训练作业版本列表 - AI开发平台ModelArts

表12 total_metric_values属性列表参数参数类型说明 f1_score Float 训练作业模型总召回。仅限部分预置算法使用，会自动生成，仅供参考。 recall Float 训练作业模型总召回率。 precision Float 训练作业模型总精确率。 accuracy

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
精度调优前准备工作 - AI开发平台ModelArts

超参数为use-flash-attn，决定训练过程中的Attention模块是否使用融合flash attention算子（性能较优）或者使用小算子。训练脚本由算法迁移人员排查迁移后的NPU脚本是否存在问题，可以通过Beyond Compare工具比对GPU训练脚本和NPU训练脚本之间是否存在差异。例

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

<镜像名称>:<tag>：定义镜像名称。示例：sdxl-train:0.0.1。 Step7 创建训练作业创建训练作业，填下如下参数。创建方式：选择自定义算法，启动方式选择自定义，然后选择上传到SWR的自定义镜像。代码目录：选择上传到OBS的代码文件夹，例如/sdxl-train/code。若

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

<镜像名称>:<tag>：定义镜像名称。示例：sdxl-train:0.0.1。 Step7 创建训练作业创建训练作业，填下如下参数。创建方式：选择自定义算法，启动方式选择自定义，然后选择上传到SWR的自定义镜像。代码目录：选择上传到OBS的代码文件夹，例如/sdxl-train/code。若

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
启动智能任务 - AI开发平台ModelArts

种手段进行智能标注，降低人工标注量，帮助用户找到难例。 “预标注”表示选择用户模型管理里面的模型进行智能标注。 “自动分组”是指先使用聚类算法对未标注图片进行聚类，再根据聚类结果进行处理，可以分组打标或者清洗图片。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建训练作业 - AI开发平台ModelArts

gine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。请通过查询预置算法接口获取model_id。填入model_id后app_url/boot_file_url和engine_id无需填写。 train_url

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
创建AI应用 - AI开发平台ModelArts

工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 model_algorithm 否 String 模型算法，从配置文件读取，可不填。如：“predict_analysis”、“object_detection ”、“image_classification”。非模板参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
训练作业卡死检测 - AI开发平台ModelArts

NCCL_IB_TIMEOUT=22：把超时时间设置长一点，正常情况下网络不稳定会有5秒钟左右的间断，超过5秒就返回timeout了，改成22预计有二十秒左右，算法为4.096 µs * 2 ^ timeout。常见案例：训练中途卡死问题现象1 检测每个节点日志是否有报错信息，某个节点报错但作业未退出导致整个训练作业卡死。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查询数据集的版本列表 - AI开发平台ModelArts

Object> 数据集的样本统计信息，包括样本元信息的统计，json格式。 data_validate Boolean 发布前数据是否经过校验算法校验。可选值如下： true：数据经过校验 false：数据未经过校验 deleted_sample_count Integer 已删除的样本数量。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询支持的镜像列表 - AI开发平台ModelArts

"description" : "AI inference application development, preconfigured ModelBox and AI engine LibTorch, only SSH connection supported.", "dev_services"

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
分页查询智能任务列表 - AI开发平台ModelArts

种手段进行智能标注，降低人工标注量，帮助用户找到难例。 “预标注”表示选择用户模型管理里面的模型进行智能标注。 “自动分组”是指先使用聚类算法对未标注图片进行聚类，再根据聚类结果进行处理，可以分组打标或者清洗图片。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建智能标注作业 - AI开发平台ModelArts

智能标注类型 “主动学习”。“主动学习”表示系统将自动使用半监督学习、难例筛选等多种手段进行智能标注，降低人工标注量，帮助用户找到难例。算法类型针对“图像分类”类型的数据集，您需要选择以下参数。 “快速型”：仅使用已标注的样本进行训练。 “精准型”：会额外使用未标注的样本做半监督训练，使得模型精度更高。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。创建方式：选择“自定义算法” 启动方式：选择“自定义” 镜像地址：Step5 上传镜像至SWR服务中创建的镜像。“swr.cn-north-4.myhuaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

在左侧导航栏中选择“训练管理 > 训练作业”，默认进入“训练作业”列表。在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。创建方式：选择“自定义算法” 启动方式：选择“自定义” 镜像地址：Step5 上传镜像至SWR服务中创建的镜像。“swr.cn-north-4.myhuaweicloud

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
自动学习训练作业失败 - AI开发平台ModelArts

应包含两个有效特征列（列的取值至少有两个且数据缺失比例低于10%）。训练数据的csv文件不能包含表头，否则会导致训练失败。当前由于特征筛选算法限制，标签列建议放在数据集最后一列，否则可能导致训练失败。由于ModelArts会自动对数据进行一些过滤，过滤后再启动训练作业。当预处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。在“创建训练作业”页面，填写相关参数信息，然后单击“下一步”。创建方式：选择“自定义算法”。镜像来源：选择“自定义”。镜像地址：Step5 制作自定义镜像中创建的镜像。“swr.cn-north-4.myhuaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。创建方式：选择“自定义算法”。启动方式：选择“自定义”。镜像地址：swr.cn-north-4.myhuaweicloud.com/deep-learning/pytorch:2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法

总条数： 335

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

查询数据集的版本列表 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

分页查询智能任务列表 - AI开发平台ModelArts

创建智能标注作业 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线