搜索_华为云

BF16和FP16说明 - AI开发平台ModelArts

从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
查看训练作业标签 - AI开发平台ModelArts

查看训练作业标签通过给训练作业添加标签，可以标识云资源，便于快速搜索训练作业。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“标签”页签查看标签信息。支持添加、修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的 llm_train/AscendSpeed

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
管理模型训练作业 - AI开发平台ModelArts

管理模型训练作业查看训练作业详情查看训练作业资源占用情况查看模型评估结果查看训练作业事件查看训练作业日志修改训练作业优先级使用Cloud Shell调试生产训练作业重建、停止或删除训练作业管理训练容器环境变量查看训练作业标签父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练benchmark工具 - AI开发平台ModelArts

训练benchmark工具工具介绍及准备工作训练性能测试训练精度测试父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
训练benchmark工具 - AI开发平台ModelArts

训练benchmark工具工具介绍及准备工作训练性能测试训练精度测试父主题：主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常问题现象调用API接口创建训练作业（专属资源池为CPU规格），训练作业状态由“创建中”转变为“异常”，训练作业详情界面“规格信息”为“--”。原因分析调用接口传入了CPU规格的专属资源池不支持的参数。处理步骤检查API请求的请求体中

 帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
获取训练作业日志的文件名 - AI开发平台ModelArts

获取训练作业日志的文件名功能介绍获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练迁移适配 - AI开发平台ModelArts

torch_npu from torch_npu.contrib import transfer_to_npu 将预训练模型指定为实际下载路径。开始训练。单卡训练启动方式： torchrun --nnodes=1 --nproc_per_node=1 train.py --model

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
训练过程中无法找到so文件 - AI开发平台ModelArts

编译生成so文件的cuda版本与训练作业的cuda版本不一致。处理方法编译环境的cuda版本与训练环境不一致，训练作业运行就会报错。例如：使用cuda版本为10的开发环境tf-1.13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
Standard模型训练 - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？在ModelArts训练代码中，如何获取依赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规

 帮助中心 > AI开发平台ModelArts > 常见问题
创建训练作业参数 - AI开发平台ModelArts

是 String 训练作业参数名称。限制为1-64位只含数字、字母、下划线或者中划线的名称。 config_desc 否 String 对训练作业的描述，默认为空，字符串的长度限制为[0，256]。 worker_server_num 是 Integer 训练作业worker的个

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明

总条数： 10000

上一页
1
...
7
8
9
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

查看训练作业标签 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

管理模型训练作业 - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

训练benchmark工具 - AI开发平台ModelArts

训练benchmark工具 - AI开发平台ModelArts

调用API创建训练作业，训练作业异常 - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线