AI开发平台ModelArts-使用AI Gallery微调大师训练模型:查看训练效果
查看训练效果
启动模型微调任务后,在微调大师列表单击操作列的“任务详情”,在弹窗中选择“指标效果”页签,可以查看训练效果。
指标名称 |
指标说明 |
---|---|
NPU/GPU利用率 |
在训练过程中,机器的NPU/GPU占用情况(横坐标时间,纵坐标占用率)。 |
显存利用率 |
在训练过程中,机器的显存占用情况(横坐标时间,纵坐标占用率)。 |
吞吐 |
在训练过程中,每卡处理tokens数量(tokens/s/p)。每种框架计算方式不一致,例如,ATB可通过“samples per second*seq_lenth/总卡数”得到tokens/s/p,输出给throughout字段,seq_lenth取值在训练脚本中可以查看。 单机8卡吞吐量一般为1650tokens/s/p,双机16卡吞吐量一般为1625tokens/s/p。
说明:
自定义训练或 自定义镜像 训练,需要提前在训练启动脚本(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。 |
训练LOSS |
训练阶段的LOSS变化,模型在日志里用LOSS关键词记录数据,按照训练迭代周期记录LOSS值。 |
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts计费说明_计费简介_ModelArts怎么计费
- 华为云盘古大模型_华为云AI大模型_盘古人工智能
- ModelArts AI Gallery_市场_资产集市
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts Workflow_什么是Workflow_工作流
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云