搜索_华为云

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业，一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy dump --pid 12345 父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
自定义模型规范 - AI开发平台ModelArts

false, "default": 24, "help": "每多少步记录一次步骤" }, { "name":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ir, obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

ir, obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
使用MaaS压缩模型 - AI开发平台ModelArts

压缩策略的适用场景压缩策略场景 SmoothQuant-W8A8 长序列的场景大并发量的场景 AWQ-W4A16 小并发量的低时延场景更少推理卡数部署的场景约束限制表2列举了支持模型压缩的模型，不在表格里的模型不支持使用MaaS压缩模型。表2 支持模型压缩的模型模型名称 SmoothQuant-W8A8

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
管理训练容器环境变量 - AI开发平台ModelArts

MA_CURRENT_IP 作业容器IP。 “MA_CURRENT_IP=192.168.23.38” MA_NUM_GPUS 作业容器的加速卡数量。 “MA_NUM_GPUS=8” MA_TASK_NAME 作业容器的角色名，例如： MindSpore、PyTorch为worker

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
自定义镜像规范 - AI开发平台ModelArts

false, "default": 24, "help": "每多少步记录一次步骤" }, { "name":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

选择代码目录中训练作业的Python启动脚本。例如“obs://test-modelarts/code/main.py”。超参当资源规格为单机多卡时，需要指定超参world_size和rank。当资源规格为多机时（即实例数大于 1），无需设置超参world_size和rank，超参会由平台自动注入。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.905版本，请参考获取软件和镜像获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。训练作业至少需要单机8卡。确保容器可以访问公网。本案例仅支持在专属资源池上运行。 Step1 创建专属资源池本文档中的模型运行环境是ModelArts Sta

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
训练启动脚本说明和参数配置 - AI开发平台ModelArts

(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型文本序列长度（SEQ_LEN）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

连续3个周期原始值 > 0 紧急告警卡异常，建议提工单联系运维支持。 AI处理器健康状态 ma_container_npu_ai_core_health_status 昇腾系列AI处理器健康状态 - 1：健康 0：不健康连续2个周期原始值为0 紧急告警卡异常，建议提工单联系运维支持。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
Eagle投机小模型训练 - AI开发平台ModelArts

bfloat16 其中 outdir：生成的训练data地址。 end_num：生成的data总条数。 npu_indices：使用哪些NPU卡。 used_npus：拉起的每个py脚本使用几个NPU，如果为70b则填写4或8，7b 13b则填1。 model_type llama：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

bfloat16 其中 outdir：生成的训练data地址。 end_num：生成的data总条数。 npu_indices：使用哪些NPU卡。 used_npus：拉起的每个py脚本使用几个NPU，如果为70b则填写4或8，7b 13b则填1。 model_type llama：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

bfloat16 其中 outdir：生成的训练data地址。 end_num：生成的data总条数。 npu_indices：使用哪些NPU卡。 used_npus：拉起的每个py脚本使用几个NPU，如果为70b则填写4或8，7b 13b则填1。 model_type llama：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

04-x86_64”镜像添加训练约束。用户可以根据实际情况定义此算法的训练约束。资源类型：选择适用的资源类型，支持多选。多卡训练：选择是否支持多卡训练。分布式训练：选择是否支持分布式训练。当创建算法的参数配置完成后，单击“提交”，返回算法管理列表。在“我的算法”列表，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

显示计算规格的详细数据，AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”，用户可以基于业务需要选择任务所需的资源卡数。在“运行时长控制”选择是否指定运行时长。不限时长：不限制作业的运行时长，AI Gallery工具链服务部署完成后将一直处于“运行中”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）

总条数： 427

上一页
1
...
17
18
19
...
22
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线