搜索_华为云

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907）
准备工作 - AI开发平台ModelArts
准备工作 - AI开发平台ModelArts

准备工作准备资源准备权重准备代码准备镜像准备Notebook 父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
管理我的服务 - AI开发平台ModelArts

管理我的服务修改MaaS模型服务更新MaaS模型服务的模型权重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

重新启动镜像激活SFS盘中的虚拟环境方法一，直接使用完整conda env路径。 # shell conda activate /home/ma-user/work/envs/user_conda/sfs-new-env 方法二，先添加虚拟环境到conda env，然后使用名称激活。 # shell conda

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具预置的基础镜像中存在cpp、gcc等调试/编译工具，如果您不需要使用这些工具，可以通过运行脚本删除。创建一个run.sh脚本文件，文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
执行LoRA微调训练任务 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
Standard数据管理 - AI开发平台ModelArts

、自然语言处理、音视频分析等AI项目场景。 ModelArts Standard数据管理模块重构中，当前能力不做演进，将结合大模型时代能力进行全新升级，敬请期待。 ModelArts Standard数据管理支持多维度数据管理能力数据集管理：提供数据集创建、数据预览、数据集版本管理等能力

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

动版本不匹配”。原因分析当昇腾规格的训练作业在ModelArts训练平台上运行时，会自动对Cann软件与Ascend驱动的版本匹配情况进行检查。如果平台发现版本不匹配，则会立即训练失败，避免后续无意义的运行时长。解决方案专属资源池的Ascend驱动版本需与训练基础镜像中的Cann软件版本版本匹配。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
执行SFT全参微调训练任务 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
查询训练作业的运行指标 - AI开发平台ModelArts

运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemUsage（显存使用率）、npuUtil（NPU使用率）、npuMemUsage（NPU显存使用率）。 value Array of numbers

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询指定节点池详情 - AI开发平台ModelArts

object 节点池的状态信息。表4 NodePoolMetadata 参数参数类型描述 name String 节点池名称。用户可进行指定，若未指定将会使用默认名称。表5 NodePoolSpec 参数参数类型描述 resources PoolResource object 节

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

ache”目录的大小创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。映射规则：当前不支持CPU配置cache盘；GP

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
删除节点池 - AI开发平台ModelArts

object 节点池的状态信息。表3 NodePoolMetadata 参数参数类型描述 name String 节点池名称。用户可进行指定，若未指定将会使用默认名称。表4 NodePoolSpec 参数参数类型描述 resources PoolResource object 节

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
训练作业日志中提示 “AttributeError: module '***' has no attribute '***'” - AI开发平台ModelArts

建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
数据处理场景介绍 - AI开发平台ModelArts

法精度下降或者训练失败问题。数据清洗：数据清洗是指对数据进行去噪、纠错或补全的过程。数据清洗是在数据校验的基础上，对数据进行一致性检查，处理一些无效值。例如在深度学习领域，可以根据用户输入的正样本和负样本，对数据进行清洗，保留用户想要的类别，去除用户不想要的类别。数据选择：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
查询节点池列表 - AI开发平台ModelArts

object 节点池的状态信息。表4 NodePoolMetadata 参数参数类型描述 name String 节点池名称。用户可进行指定，若未指定将会使用默认名称。表5 NodePoolSpec 参数参数类型描述 resources PoolResource object 节

 帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
执行预训练任务 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
如何将某些图片划分到验证集或者训练集？ - AI开发平台ModelArts

目前只能指定切分比例，随机将样本划分到训练集或者验证集，不支持指定。切分比例的指定：在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题

总条数： 1953

上一页
1
...
89
90
91
...
98
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练脚本说明 - AI开发平台ModelArts

准备工作 - AI开发平台ModelArts

管理我的服务 - AI开发平台ModelArts

将Notebook的Conda环境迁移到SFS磁盘 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

Standard数据管理 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

查询指定节点池详情 - AI开发平台ModelArts

开发环境中不同Notebook规格资源“/cache”目录的大小 - AI开发平台ModelArts

删除节点池 - AI开发平台ModelArts

训练作业日志中提示 “AttributeError: module '' has no attribute ''” - AI开发平台ModelArts

数据处理场景介绍 - AI开发平台ModelArts

查询节点池列表 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

如何将某些图片划分到验证集或者训练集？ - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线