搜索_华为云

创建ModelArts数据清洗任务 - AI开发平台ModelArts

输入输出设置-OBS目录确认参数填写无误后，单击“创建”，完成数据处理任务的创建。数据清洗算子（PCC算子） ModelArts的数据清洗通过PCC算子实现。图像分类或者物体检测的数据集中可能存在非所需类别的图像，需要将这些图像去除掉，以免对标注、模型训练造成干扰。图5 PCC算子效果参数说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
切换Lite Server服务器操作系统 - AI开发平台ModelArts

认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全； // 本示例以ak和sk保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ak

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod，需要先找到config.yaml所在路径，并执行以下命令。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

参考。训练流程简述相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
自定义模型规范 - AI开发平台ModelArts

非必选文件，环境配置文件，定义了项目依赖的python包。AI Gallery提供了基础镜像的依赖环境，如果要添加自定义依赖项，可通过requirements.txt文件实现。基础镜像包含python、PyTorch、cuda（GPU）、CANN（NPU）。自定义模型规范（推理）当托管自定义模型到AI Gallery时，如果模型要支持AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
修改训练作业优先级 - AI开发平台ModelArts

选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3，默认优先级为1，最高优先级为3。如何修改训练作业优先级在训练作业列表页面，选择“状态”为“等待中”的训练作业，单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

目录下）。查看待安装包的安装限制和前置依赖等，排查是否满足相关要求。如果包有依赖关系，请参考导入模型时，模型配置文件中的安装包依赖参数如何编写？章节配置包的先后依赖关系。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
Lite Server资源开通 - AI开发平台ModelArts

如果界面无可选规格，请联系华为云技术支持申请开通。系统盘系统盘和规格有关，选择支持挂载的规格才会显示此参数。可以在创建完成后在云服务器侧实现数据盘挂载或系统盘的扩容，建议取值至少100GB。表4 镜像配置参数说明参数名称说明镜像公共镜像常见的标准操作系统镜像，所有用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调，包括训练数据处理、超参配置、创建训练任务及性能查看。 LoRA微调训练介绍如何进行LoRA微调训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调、超参配置、训练任务、性能查看。 LoRA微调训练介绍如何进行LoRA微调、超参配置、训练任务、性能查看。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
ModelArts权限管理基本概念 - AI开发平台ModelArts

ModelArts的大部分权限管理能力均基于统一身份认证服务（Identity and Access Management，简称IAM）来实现，在您继续往下阅读之前，强烈建议您先行熟悉IAM基本概念，如果能完整理解IAM的所有概念，将更加有助于您理解本文档。为了支持用户对Mod

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 864

上一页
1
...
35
36
37
...
44
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建ModelArts数据清洗任务 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线