搜索_华为云

准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

--test_count=3 (随机选择 3个数据作为测试集) user_id: 用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

--test_count=3 (随机选择 3个数据作为测试集) user_id: 用户的唯一不重复的ID值，必选。 excel_addr: 待处理的excel文件的地址，必选。 dataset_name: 处理后的数据集名称，必选。 proportion: 测试集所占份数，范围[1,9]，可选。 test_count:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo的数据存储方案，不适用于仅OBS存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。约束限制适配的CANN版本是cann_8.0.rc3，驱动版本是23.0.6。本案例仅

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

针对不同的数据量和算法情况，推荐以下训练方案：单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
修复Standard专属资源池故障节点 - AI开发平台ModelArts

点的重置。勾选多个节点的复选框，单击操作记录旁的“重置”按钮，可实现对多个节点的重置。下发重置节点任务时需要填写以下参数：表1 重置参数说明参数名称说明操作系统选择下拉框中支持的操作系统。配置方式选择重置节点的配置方式。按节点比例：重置任务包含多个节点时，同时被重置节点的最高比例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

10000; done 部分参数说明： MODEL_NAME：HuggingFace格式模型权重文件所在OBS文件夹名称。 OUTPUT_DIR：通过TensorRT-LLM转换后的模型文件在容器中的路径。完整的Dockerfile如下： FROM nvcr.io/nvidia/tritonserver:23

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
订阅免费算法 - AI开发平台ModelArts

对于开放代码的算法，您也可以在详情页面预览或者下载对应代码。在“代码”页签，单击右侧的“下载”将完整代码下载到本地，您也可以单击下方列表中的文件名称进行预览。目前如下后缀结尾的文件类型支持代码预览：txt、py、h、xml、html、c、properties、yml、cmake、sh、css、js、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

而“/home/ma-user/modelarts/log/”目录下的“*.log”文件将会被自动上传至ModelArts训练作业的日志目录（OBS）。如果本地相应目录没有生成大小>0的日志文件，则对应的父级目录也不会上传。因此，PyTorch NPU的plog日志是按worker存储的，而不是按rank

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
使用Notebook进行代码调试 - AI开发平台ModelArts

资源类型：按实际情况选择已创建的专属资源池。规格：选择8卡GPU规格，“run.sh”文件中默认MA_NUM_GPUS为8卡，因此选择notebook规格时需要与MA_NUM_GPUS默认值相同。存储配置：选择“弹性文件服务SFS”作为存储位置。子目录挂载可不填写，如果需挂载SFS指定目录，则在子目录挂载处填写具体路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
什么是区域、可用区？ - AI开发平台ModelArts

Zone）：一个AZ是一个或多个物理数据中心的集合，有独立的风火水电，AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连，以满足用户跨AZ构建高可用性系统的需求。图1阐明了区域和可用区之间的关系。图1 区域和可用区目前，华为云已在全球多个地域开放

 帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
自动学习模型训练图片异常？ - AI开发平台ModelArts

illegal 图片非RGB模式 convert to rgb 系统已将图片转成RGB格式处理，不需要用户处理。 5 type illegal 非图片文件，但可以转换成JPG convert to jpg 系统已将图片转换成JPG格式处理，不需要用户处理。父主题：模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
查询训练作业列表 - AI开发平台ModelArts

LogDir 参数参数类型描述 pfs PFSSummary object obs并行文件系统输出。表29 PFSSummary 参数参数类型描述 pfs_path String obs并行文件系统路径url。表30 DataSource 参数参数类型描述 job JobSummary

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 1519

上一页
1
...
60
61
62
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

订阅免费算法 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

什么是区域、可用区？ - AI开发平台ModelArts

自动学习模型训练图片异常？ - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线