搜索_华为云

训练场景和方案介绍 - AI开发平台ModelArts

软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
训练场景和方案介绍 - AI开发平台ModelArts

软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

float32) # 保存网络输入为二进制文件 image.tofile("input_data.bin") 将基准模型的输出保存到文本文件。本例中输出节点名称为output_node_name，输出节点的shape为“(1, 1000)”，因此一共有两维，对应的输出文件为“output_node_name

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

点创建训练作业开始到变成运行中的时间（资源充足、镜像已缓存）。 20秒训练列表页打开已有50条训练作业，单击训练模块后的时间。 6秒日志加载作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在Mo

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResNet18(As

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
日志提示“no socket interface found” - AI开发平台ModelArts

置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"]

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
管理标注作业 - AI开发平台ModelArts

进入数据标注页面。在数据标注列表页，“我创建的”页签下，选择需要复制的标注任务。单击作业操作列的“更多>复制”。在标注任务复制的弹窗中，填写作业描述，作业名称task-xxxx-copy-xxxx，其中xxxx为系统生成的随机码，用来区分新作业与被复制作业。也可以修改新生成的作业名称。单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

chedulers和预训练模型中，Pipeline和Schedulers都完全遵循了“single-file policy”原则。该设计原则更推荐直接复制粘贴代码，而不是进行抽象处理。因此，与模型前向运算相关的所有源代码都被直接复制粘贴到同一个文件中，而不是调用某些抽象提取出的模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
预测API的域名停用公告 - AI开发平台ModelArts

影响区域：华为云全部Region 停用影响新建服务、存量服务停止后再启动、存量服务失败后再启动，会立即切换使用新域名。为保障持续提供推理服务，请您及时更新业务中的预测API的域名。如果您使用的是VPC内部节点访问ModelArts推理的在线服务，预测API切换域名后，由于内网VPC无法识别公网域名

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
查询处理任务列表 - AI开发平台ModelArts

当前任务是否是该版本的同类型任务中的最新任务。 name String 数据处理任务名称。 result Object 数据处理任务输出的结果，status为2时会出现该字段，用于特征分析任务。 status Integer 数据处理的状态。可选值如下： 0：初始化 1：运行中 2：已完成 3：失败

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

e+Ascend）。驱动版本与底层驱动不兼容当对自定义镜像的驱动进行升级时，请确定底层驱动是否兼容。当前支持哪种驱动版本，请从基础镜像中获取。文件权限不足该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件： RUN if id -u ma-user

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

Step2 抽取kv-cache量化系数该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中，供推理时使用。使用的抽取脚本由vllm社区提供： python3 examples/fp8/extract_scales.py \ --quantized_model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
开发环境管理 - AI开发平台ModelArts

删除Notebook实例通过运行的实例保存成容器镜像查询Notebook支持的有效规格列表查询Notebook支持的可切换规格列表查询运行中的Notebook可用时长 Notebook时长续约启动Notebook实例停止Notebook实例获取动态挂载OBS实例信息列表动态挂载OBS

帮助中心 > AI开发平台ModelArts > API参考
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据分发Sampler，使每个进程加载一个mini batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
推理业务迁移评估表 - AI开发平台ModelArts

- 当前使用的操作系统及版本当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本当前引擎（TF/PT

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 2211

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

管理标注作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

预测API的域名停用公告 - AI开发平台ModelArts

查询处理任务列表 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

开发环境管理 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线