搜索_华为云

分布式训练功能介绍 - AI开发平台ModelArts

负责reducer的GPU更新模型参数后分发到不同的GPU，因此有较大的通信开销。 GPU负载不均衡：负责reducer的GPU需要负责汇总输出、计算损失和更新权重，因此显存和使用率相比其他GPU都会更高。 DistributedDataParallel进行多机多卡训练的优缺点通信更快：相比于DP，通信速度更快

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

OBS路径（该路径必须是存在的），用于保存代码和训练模型及日志的输出 Running Parameters 训练脚本接收的参数。 Specifications 计算规格，这里选择Ascend类型的，以界面实际可选值为准。 Compute Node 节点数（单机训练默认为1） PyCharm中支持两种方

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用AWQ量化 - AI开发平台ModelArts

Step3 权重格式离线转换（可选） AutoAWQ量化完成后，使用int32对int4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
准备MaaS资源 - AI开发平台ModelArts

5的专属资源池，其他版本会导致任务失败。当专属资源池的驱动版本不适配时，可以参考升级Standard专属资源池驱动升级驱动。公共资源池：公共资源池提供公共的大规模计算集群，根据用户作业参数分配使用，资源按作业隔离。MaaS服务可以使用ModelArts Standard形态下提供的公共资源池完成模型训推

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
附录：训练常见问题 - AI开发平台ModelArts

问题2：访问容器目录时提示Permission denied 解决方法：由于在容器中没有相应目录的权限，会导致访问时提示Permission denied。可以在宿主机中对相关目录做权限放开，执行命令如下。 chmod 777 -R ${dir} 问题3：训练过程报错：ImportError: XXX not

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
资源购买 - AI开发平台ModelArts
资源购买 - AI开发平台ModelArts

参考自定义购买ECS。购买时需注意，ECS需要和SFS买到同一个VPC才能挂载SFS存储。购买ModelArts专属资源池提供独享的计算资源，可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享，更加高效。在使用专属资源池之前，您需要先创建一个专属资源池，操作指导请参考创建专属资源池。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
依赖和委托 - AI开发平台ModelArts

业务场景依赖的服务委托授权项说明在线服务 LTS lts:groups:create lts:groups:list lts:topics:create lts:topics:delete lts:topics:list 建议配置，在线服务配置LTS日志上报。批量服务 OBS

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
查询所有Notebook实例列表 - AI开发平台ModelArts

NOTEBOOK：计费规格实例。 billing_items Array of strings 计费资源类型。枚举值： STORAGE：存储资源计费。 COMPUTE：计算资源计费。 ALL：所有计费类型 user user object 表5 JobProgress 参数参数类型描述 notebook_id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例列表 - AI开发平台ModelArts

NOTEBOOK：计费规格实例。 billing_items Array of strings 计费资源类型。枚举值： STORAGE：存储资源计费。 COMPUTE：计算资源计费。 ALL：所有计费类型 user user object 表5 JobProgress 参数参数类型描述 notebook_id

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
yaml配置文件参数配置说明 - AI开发平台ModelArts

1000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数，训练过程将只使用指定数量的样本，而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrite_cache"，则在训练过程中覆盖缓存

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练的数据集预处理说明 - AI开发平台ModelArts

推理时，同样需要根据训练时的prompt模板来构造prompt内容。prompt拼接格式如下，其中 {instruction} 为用户推理测试时输入的内容。 "Below is an instruction that describes a task, paired with an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
使用SDK调测单机训练作业 - AI开发平台ModelArts

值是一个列表，描述了训练服务支持的所有规格的信息。每个元素中flavor_id是可直接用于远程训练任务的计算规格，max_num是该规格的最大节点数。如果用户知道要使用的计算规格，可以略过这一步。提交远程训练作业。 from modelarts.estimatorV2 import

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查询训练作业版本列表 - AI开发平台ModelArts

object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表14。 host_path object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表15。表14 nfs属性列表参数参数类型说明 id String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

admin/admin。在配置管理页面，添加数据源，类型选择Prometheus。备注：xx.xx.xx.xx为Grafana的所在宿主机的IP地址图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号，单击Save&Test：图2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 686

上一页
1
...
29
30
31
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

分布式训练功能介绍 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

准备MaaS资源 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

资源购买 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线