检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
说明: 日志文件中的迭代次数、LOSS和吞吐数据必须按照“迭代次数|loss|吞吐”格式存放,否则AI Gallery会数据解析失败,导致“吞吐”和“训练LOSS”曲线异常。
“特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 “数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。
长训Loss比对结果 在单卡环境下,执行一个Epoch训练任务,GPU和NPU训练叠加效果如下: 上图中的红色曲线为GPU Loss折线图,蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下,Loss总体的绝对偏差大约为0.08181。 父主题: 精度对齐
由于规模巨大,训练过程复杂,经常出现loss不收敛的情况(模型精度问题),主要表现为loss曲线起飞或者毛刺等,且模型的下游任务评测效果变差。
说明: 日志文件中的迭代次数、LOSS和吞吐数据必须按照“迭代次数|loss|吞吐”格式存放,否则AI Gallery会数据解析失败,导致“吞吐”和“训练LOSS”曲线异常。
“特征分析”是指基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 “数据处理”是指从大量的、杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。
分析ModelArts数据集中的数据特征 基于图片或目标框对图片的各项特征,如模糊度、亮度进行分析,并绘制可视化曲线,帮助处理数据集。 您还可以选择数据集的多个版本,查看其可视化曲线,进行对比分析。
说明: 自定义训练或自定义镜像训练,需要提前在训练启动脚本(例如“train.py”)中定义好迭代次数、LOSS和吞吐数据的存放位置,以及存放格式(必须是“迭代次数|loss|吞吐”),才能在此处正常查看吞吐和“训练LOSS”曲线。
目前如下后缀结尾的文件类型支持代码预览:txt、py、h、xml、html、c、properties、yml、cmake、sh、css、js、cpp、json、md、sql、bat、conf 图1 下载预览代码 在详情页面单击“订阅”,根据算法是否具有使用约束进行不同操作: 如果订阅是具有使用约束的算法
保存的模型可以用于后续的训练或推理任务 plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。
收敛且趋势与GPU训练loss一致 图5 lora微调双机loss曲线对比结果 图6 lora微调双机loss曲线对比结果 父主题: MLLM多模态模型训练推理
保存的模型可以用于后续的训练或推理任务 plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。
保存的模型可以用于后续的训练或推理任务 plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。
plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。如果设置为"true",则在每次训练开始时,都会清空输出目录,以便保存新的训练结果。
保存的模型可以用于后续的训练或推理任务 plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。
plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。如果设置为"true",则在每次训练开始时清空输出目录。
plot_loss true 用于指定是否绘制损失曲线。如果设置为"true",则在训练结束后,将损失曲线保存为图片 overwrite_output_dir true 是否覆盖输出目录。如果设置为"true",则在每次训练开始时清空输出目录。
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。
当前支持查看近1小时、近3小时和近12小时的监控数据,查看更长时间范围监控曲线,请在监控视图中单击进入大图模式查看。 父主题: 管理同步在线服务
右下图为满足SLO要求下两种模式的吞吐变化曲线。 手动配比调优步骤 跑出一至多个混推实例,并使用脚本绘制各个验证结果。 分析混推图片结果,判断当前实例个数下是否会有收益。调优经验:混推模式下全量能力大于增量能力时,PD分离部署会有收益。