搜索_华为云

训练的数据集预处理说明 - AI开发平台ModelArts

微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data） --tokenizer-type：tokenizer的类型，可选项有['Be

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
Msprobe API预检 - AI开发平台ModelArts

Msprobe是MindStudio Training Tools工具链下精度调试部分的工具包，主要包括精度预检、溢出检测和精度比对等功能，目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景，可以定位模型训练中的精度问题。精度预检工具旨在计算单个API在整

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优 > Msprobe工具使用指导
训练作业卡死检测 - AI开发平台ModelArts

配置通知及时提醒用户作业卡死。检测规则卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。进程状态：只要训练作业中存在进程IO有变化，进入下一个检测周期。如果在多个检测周期内，作业所有进程IO都没有变化，则进入资源利用率检测阶段。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
迁移适配 - AI开发平台ModelArts
迁移适配 - AI开发平台ModelArts

要包括DataParallel（DP）和Distributed Data Parallel （DDP）。torch_npu环境下针对DDP场景的多卡训练有提供支持，具体请参见迁移单卡脚本为多卡脚本。此外，针对deepspeed环境，昇腾有专门的适配环境deepspeed-npu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
查询作业资源规格 - AI开发平台ModelArts

是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 查询检索参数说明参数是否为必选参数类型说明 job_type 否 String 指定作业的类型，可选的有“train”和“inference”。查询自动学习资源规格无需此参数。 engine_id 否

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。如图所示，表示有值，节点已开启topo文件和ranktable文件的下发。否则，联系技术支持处理。图5 查看节点的yaml文件父主题： Lite Cluster资源使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用前必读 - AI开发平台ModelArts

IAM用户由账号在IAM中创建的用户，是云服务的使用人员，具有身份凭证（密码和访问密钥）。在我的凭证下，您可以查看账号ID和IAM用户ID。通常在调用API的鉴权过程中，您需要用到账号、用户和密码等信息。区域指云资源所在的物理位置，同一区域内可用区间内网互通，不同区域间

 帮助中心 > AI开发平台ModelArts > API参考
日志提示“No space left on device” - AI开发平台ModelArts

device”。同一目录下创建较多文件，为了加快文件检索速度，内核会创建一个索引表，短时间内创建较多文件时，会导致索引表达到上限，进而报错。触发条件和下面的因素有关：文件名越长，文件数量的上限越小。 blocksize越小，文件数量的上限越小。（ blocksize，系统默认 4096B

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
线下容器镜像构建及调试 - AI开发平台ModelArts

优先使用手工进行数据复制的工作并验证一般在镜像里不包含训练所用的数据和代码，所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录，防止正式运行时磁盘占满（请见ModelArts环境挂载目录说明）。建议linux服务器申请的时候，有足够大的内存（8G以上）以及足够大的硬盘（100G以上）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
标注图像分类数据 - AI开发平台ModelArts

看已完成标注的图片，或者通过右侧的“全部标签”列表，了解当前已完成的标签名称和标签数量。同步或添加图片在“数据标注”节点单击“实例详情”进入数据标注页面，数据标注的图片来源有两种，通过本地添加图片和同步OBS中的图片数据。图3 添加本地图片图4 同步OBS图片数据添加数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

昇腾迁移方案的基础上，提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源和工具链，以及具体的Notebook代码运行示例和最佳实践，并对于实际的操作原理和迁移流程进行说明，包含迁移后的精度和性能验证、调试方法说明。核心概念推理业务昇腾迁移整体流程及工具链图1 推理业务昇腾迁移整体路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

CANN 8.0.RC3 MindSpore Lite 2.3.0 OS arm ultralytics 8.2.70 获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.909-xxx.zip软件包中的AscendCloud-CV-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
查询训练作业参数列表 - AI开发平台ModelArts

String 可选值有以下两种。 “asc”为递增排序。 “desc”为递减排序，默认为“desc”。 search_content 否 String 指定要查询的文字信息，例如参数名称。默认为空。 config_type 否 String 指定要查询的配置类型，可选值有以下两种 “custom”为查询用户自定义配置。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
执行训练任务 - AI开发平台ModelArts

3指使用0-3卡执行训练任务。训练成功标志 “***** train metrics *****”关键字打印训练完成后，请参考查看日志和性能章节查看指令微调的日志和性能。如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考附录：训练常见问题解决。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
训练的数据集预处理说明 - AI开发平台ModelArts

行循环处理其中的单轮对话在单轮对话中对user和assistant的文本进行清洗分别encode处理后的文本，获得对应的token序列，user_ids和assistant_ids input_ids是user_ids和assistant_ids的拼接 labels与in

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
升级Lite Cluster资源池驱动 - AI开发平台ModelArts

会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。驱动升级有两种升级方式：安全升级、强制升级。安全升级：不影响正在运行的业务，开始升级后会先将节点进行隔离（不能再下发新的作业），待节点上的存量作业运

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
修改工作空间 - AI开发平台ModelArts

_id同时使用。 auth_type 否 String 授权类型。可选值有PUBLIC、PRIVATE、INTERNAL。默认值为PUBLIC。 PUBLIC：租户内部公开访问。 PRIVATE：仅创建者和主账号可访问。 INTERNAL：创建者、主账号、指定IAM子账号可访问，需要与grants参数配合使用。

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
自动学习简介 - AI开发平台ModelArts

制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力，只需上传数据，通过自动学习界面引导和简单操作即可完成模型训练和部署。当前自动学习支持快速创建图像分类、物体检测、预测分析、声音分类和文本分类模型的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
自定义镜像使用场景 - AI开发平台ModelArts

提供简单易用、安全可靠的镜像管理功能，帮助您快速部署容器化服务。您可以通过界面、社区CLI和原生API上传、下载和管理容器镜像。您制作的自定义镜像需要上传至SWR服务。ModelArts开发环境、训练和创建模型使用的自定义镜像需要从SWR服务管理列表获取。图1 获取镜像列表对象存储服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

returned Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 508

上一页
1
...
14
15
16
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练的数据集预处理说明 - AI开发平台ModelArts

Msprobe API预检 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

迁移适配 - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

标注图像分类数据 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

升级Lite Cluster资源池驱动 - AI开发平台ModelArts

修改工作空间 - AI开发平台ModelArts

自动学习简介 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线