检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预训练 预训练数据处理 预训练任务 断点续训练 查看日志和性能 父主题: GLM3-6B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
--workers 8 如果发生如下“np.float”报错,按照报错提示修改为“float”即可。 图1 预处理数据报错 数据预处理完成标识。 图2 数据预处理完成 新建data目录并移动处理好的数据。 mkdir data mv meg-gpt2* ./data mv gpt2* ./data
SFT全参微调训练 SFT全参微调数据处理 SFT全参微调权重转换 SFT全参微调任务 父主题: LLama2系列模型基于Lite Server适配PyTorch NPU训练指导(6.3.904)
标注物体检测数据 物体检测之前,首先需考虑如何设计标签,标签设计需要对应所检测图片的明显特征,并且选择的标签比较容易识别(画面主体物与背景区分度较高),每个标签就是对所检测图片期望识别的全部结果。物体的标签设计完成之后,基于设计好的标签准备该图片的数据,每种需识别出的标签,建议应
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.907)
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.911)
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.909)
reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider = "ge" 父主题: 常见问题
使用窍门 创建项目时,如何快速创建OBS桶及文件夹? 自动学习生成的模型,存储在哪里?支持哪些其他操作? 父主题: 使用自动学习实现零代码AI开发
CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装 如何保证训练和调试时文件路径保持一致 父主题: 专属资源池训练
问题现象 AI Gallery中的YOLOv5算法,训练结束后没有显示模型评估结果。 原因分析 未标注的图片过多,导致没有模型评估结果。 处理方法 对所有训练数据进行标注。 父主题: 预置算法运行故障
is killed by signal: Killed BP。 原因分析 由于batch size过大,导致Dataloader进程退出。 处理方法 请调小batch size的数值。 父主题: 业务代码问题
创建文件越快,越容易触发。 处理方法 可以参照日志提示"write line error"文档进行修复。 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。
_postprocess(self, data) 后处理方法,在推理请求完成后调用,用于将模型输出转换为API接口输出。 用户可以选择重写preprocess和postprocess方法,以实现API输入数据的预处理和推理输出结果的后处理。 重写模型父类的初始化方法init可能导致模型“运行异常”。
uri String 实例私有IP地址。 表7 Image 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
uri String 实例私有IP地址。 表7 Image 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description
表示流水线并行中一个micro batch所处理的样本量。在流水线并行中,为了减少气泡时间,会将一个step的数据切分成多个micro batch。 该值与TP和PP以及模型大小相关,可根据实际情况进行调整。 GBS 512 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。
可以使用自己准备的数据集。 准备镜像 准备训练模型适用的容器镜像。 执行训练任务(预训练/微调) 执行训练任务(推荐) 介绍如何进行预训练,包括训练数据处理、超参配置、创建训练任务及性能查看。 查看训练结果 查看日志和性能 查看训练后的日志,训练的性能结果。 父主题: 主流开源大模型基于Lite