搜索_华为云

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
使用Notebook进行代码调试 - AI开发平台ModelArts

r (2.0.12) doesn't match a supported version!"不影响训练，可忽略。 Notebook中调试完后，如果镜像有修改，可以保存镜像用于后续训练，具体操作请参见保存Notebook镜像环境。父主题：单机单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
Standard模型训练 - AI开发平台ModelArts

Standard模型训练使用ModelArts Standard自定义算法实现手写数字识别基于ModelArts Standard运行GPU训练任务

 帮助中心 > AI开发平台ModelArts > 最佳实践
训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
什么是自动学习？ - AI开发平台ModelArts

什么是自动学习？自动学习功能可以根据标注的数据自动设计模型、自动调参、自动训练、自动压缩和部署模型，不需要代码编写和模型开发经验。自动学习功能主要面向无编码能力的用户，其可以通过页面的标注操作，一站式训练、部署，完成AI模型构建。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 功能咨询
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
断点续训练 - AI开发平台ModelArts

断点续训练断点续训练是指因为某些原因导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何访问训练作业的后台？ - AI开发平台ModelArts

如何访问训练作业的后台？ ModelArts不支持访问训练作业后台。父主题：查看作业详情

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 查看作业详情
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“资源占用情况”页签查看计算节点的资源使用情况，最多可显示最近三天的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练作业进程异常退出 - AI开发平台ModelArts

训练作业进程异常退出问题现象训练作业运行失败，日志中出现如下类似报错： [Modelarts Service Log]Training end with return code: 137 原因分析日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程，所以这里

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
BF16和FP16说明 - AI开发平台ModelArts

从而提供更好的稳定性和可靠性，在大模型训练和推理以及权重存储方面更受欢迎。 FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询训练作业参数详情 - AI开发平台ModelArts

String 训练作业参数的名称。 config_desc String 训练作业参数的描述信息。 worker_server_num Integer 训练作业worker的个数。 app_url String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
获取训练作业日志的文件名 - AI开发平台ModelArts

获取训练作业日志的文件名功能介绍获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明

总条数： 2334

上一页
1
...
9
10
11
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练tokenizer文件说明 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

什么是自动学习？ - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

如何访问训练作业的后台？ - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线