搜索_华为云

训练中的权重转换说明 - AI开发平台ModelArts

训练完成的权重文件默认不会自动转换为Hugging Face格式权重。若用户需要自动转换，则在运行脚本，例如0_pl_pretrain_13b.sh中，添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。 Megat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询资源池 - AI开发平台ModelArts

updateStrategy String 驱动升级策略。可选值如下： force：强制升级，立即升级节点驱动，可能影响节点上正在运行的作业 idle：安全升级，待节点上没有作业运行时进行驱动升级表12 PoolStatus 参数参数类型描述 phase String 资源池集群状态。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
ma-cli configure鉴权命令 - AI开发平台ModelArts

ma-cli configure鉴权命令鉴权信息说明在虚拟机及个人PC场景，需要配置鉴权信息，目前支持用户名密码鉴权（默认）和AK/SK鉴权；在使用账号认证时，需要指定username和password；在使用IAM用户认证时，需要指定account、username和password；

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

调用查询数据集详情接口根据数据集ID查询数据集的详情。调用查询样本列表接口根据数据集ID获取数据集的样本详情。调用批量更新样本标签接口根据数据集ID和样本ID给样本添加标签进行人工标注。调用查询数据集的统计信息接口查看数据集的标注统计信息。当数据集使用完成或不再使用时，调用删除数据集接口删除数据集。前提条件

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

义算法适配章节的输入输出配置部分：在创建算法时，您需要在输入路径配置中设置代码路径参数，默认为“data_url”。您需要在训练代码中添加超参，默认为“data_url”。使用“data_url”当做训练数据输入的本地路径。检查报错的路径是否存在由于用户本地开发的代码需要

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
查询作业资源规格 - AI开发平台ModelArts

调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组资源规格参数列表，如表4所示。表4 specs属性列表说明参数参数类型说明 spec_id Long 资源规格的ID。 core String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
执行训练任务 - AI开发平台ModelArts

aMA-Factory/data 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。是，选用ZeRO (Zero Redundancy Optimizer)优化器。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
配额与限制 - AI开发平台ModelArts

Cluster或Lite Server时，所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等等资源会超出华为云默认提供的资源配额，因此需要申请扩大配额。具体配额项如下。表1 ModelArts Lite涉及的资源配额服务资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量（MB）

帮助中心 > AI开发平台ModelArts > 产品介绍
发布本地AI应用到AI Gallery - AI开发平台ModelArts

当AI应用的状态变为“待启动”时，表示创建完成。启动AI应用上传AI应用的运行文件“app.py”。在AI应用详情页，选择“应用文件”页签，单击“添加文件”，进入上传文件页面。运行文件的开发要求请参见准备AI应用运行文件app.py。上传单个超过5GB的文件时，请使用Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
训练作业容错检查 - AI开发平台ModelArts

作业时，在“metadata”字段的“annotations”中传入“fault-tolerance/job-retry-num”字段。添加“fault-tolerance/job-retry-num”字段，视为开启自动重启，value的范围可以设置为1~128的整数。valu

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练数据集预处理说明 - AI开发平台ModelArts

方法二：用户在Notebook中直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/work/llm_train/AscendSpeed/ModelLink 命令，随后在Notebook中运行该脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

确保容器可以访问公网。文档更新内容 6.3.908版本相对于6.3.907版本新增如下内容：文档和代码中新增对mistral和mixtral模型的适配，并添加训练推荐配置。文档中新增对Llama3支持长序列文本（sequence_length > 32k）训练内容，例如新增参数context-parallel-size。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
使用基础镜像 - AI开发平台ModelArts

使用基础镜像通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行install.sh文件，来安装依赖以及下载完整代码。命令如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ModelArts最佳实践案例列表 - AI开发平台ModelArts

基于ModelArts的手写数字识别 AXYZdong AI 文字编辑图片 instruct-pix2pix 案例 AXYZdong Standard推理部署上线二维码检测识别服务林欣使用ModelArts对8类常见生活垃圾进行分类福州司马懿使用ModelArts搭建"花卉种类识别"服务福州司马懿

 帮助中心 > AI开发平台ModelArts > 最佳实践
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

AOM配置短信、邮件等通知方式。以下步骤基于AOM1.0配置。登录AOM控制台在左侧导航栏选择“告警 > 告警规则”，在右上角单击“添加告警”。设置告警规则（以NPU掉卡为例）。规则类型：选择阈值类告警。监控对象：选择命令行输入。命令行输入框： sum(nt_npg

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 770

上一页
1
...
34
35
36
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练中的权重转换说明 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

ma-cli configure鉴权命令 - AI开发平台ModelArts

创建图像分类数据集并进行标注任务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

配额与限制 - AI开发平台ModelArts

发布本地AI应用到AI Gallery - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线