搜索_华为云

获取智能任务的信息 - AI开发平台ModelArts

两个点组成，第一个点起始点，第二个点为终止点。 dashed [[0,100],[50,95]] 两个点组成，第一个点起始点，第二个点为终止点。 point [[0,100]] 一个点组成。 polyline [[0,100],[50,95],[10,60],[500,400]] 折线，多个点组成。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
SFT全参微调训练 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查询团队标注的样本信息 - AI开发平台ModelArts

两个点组成，第一个点起始点，第二个点为终止点。 dashed [[0,100],[50,95]] 两个点组成，第一个点起始点，第二个点为终止点。 point [[0,100]] 一个点组成。 polyline [[0,100],[50,95],[10,60],[500,400]] 折线，多个点组成。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
pipeline应用准备 - AI开发平台ModelArts

py是代理模型类，pipeline_onnx_stable_diffusion_img2img_mslite.py是从Stable Diffusion源码中的pipeline复制并修改的，这些文件在后续的章节中会使用并进一步介绍。图1 代码目录将“modelarts-ascend/exa

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
创建数据集 - AI开发平台ModelArts

关系类型标签需要在标签属性中指定起始实体标签和终止实体标签 property['@modelarts:from_type'] = "疾病" # 起始实体标签 property['@modelarts:to_type'] = "疾病别称" # 终止实体标签 label_relation1['property']

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

是进行抽象处理。因此，与模型前向运算相关的所有源代码都被直接复制粘贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码简单易用、对代码贡献者友好。然而，这种反软件结构化的设计也有明显的缺点。由于缺乏统一的模块化库，对于昇腾适配而言变得

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
创建Notebook实例 - AI开发平台ModelArts

止后会被保留，存储支持在线按需扩容。只能在单个开发环境中使用。并行文件系统PFS 说明：并行文件系统PFS为白名单功能，如需使用，请联系华为技术支持开通。仅支持挂载同一区域下的OBS并行文件系统（PFS）。适合直接使用PFS桶作为持久化存储进行AI开发和探索，使用场景如下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
迁移过程使用工具概览 - AI开发平台ModelArts

冲区、内存展开和同步指令插入等。性能分析工具 msprof命令行工具提供了采集通用命令以及AI任务运行性能数据、昇腾AI处理器系统数据、Host侧系统数据和采集和解析能力。面向推理的场景，可以对于模型的执行性能数据进行收集，可基于收集的性能数据进行性能分析。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

ignore 系统已自动过跳过这张图片，不需要用户处理。 2 tf-decode failed 图片无法被TensorFlow解码且不能修复 ignore 系统已跳过这张图片，不需要用户处理。 3 size over 图片大于5MB resize to small 系统已将图片压缩到5MB以内处理，不需要用户处理。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
执行训练任务【旧】 - AI开发平台ModelArts

sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
Lite Cluster资源开通 - AI开发平台ModelArts

引擎。节点池名称：新建节点池的名称，可自定义。虚拟私有云：默认为CCE集群所在VPC网络，不可修改。节点子网：选择同一VPC网络下的子网作为节点子网，新创建的节点将会使用该子网资源。关联安全组：用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

returned Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
批量添加样本 - AI开发平台ModelArts

两个点组成，第一个点起始点，第二个点为终止点。 dashed [[0,100],[50,95]] 两个点组成，第一个点起始点，第二个点为终止点。 point [[0,100]] 一个点组成。 polyline [[0,100],[50,95],[10,60],[500,400]] 折线，多个点组成。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
VS Code ToolKit连接Notebook - AI开发平台ModelArts

AK、SK：在“账号中心 > 我的凭证 > 访问密钥”中创建访问密钥，获取AK、SK（参考链接）。选择站点：此处的站点必须和远程连接的Notebook在同一个站点，否则会导致连接失败。登录成功后显示Notebook实例列表。此处仅显示ModelArts控制台default工作空间下的Notebook实例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例

总条数： 1165

上一页
1
...
14
15
16
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

获取智能任务的信息 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

查询团队标注的样本信息 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

在ModelArts自动学习中模型训练图片异常怎么办？ - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线