检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Loss对齐结果 在排查完精度偏差来源之后发现,Loss最大绝对偏差减少为0.0003,Loss结果对齐。 需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
构造随机token的数据集进行测试;sharegpt表示使用sharegpt数据集进行测试;human-eval数据集表示使用human-eval数据集进行测试。不输入默认为random。注意:当输入为sharegpt或human-eval时,测试数据的输入长度为数据集的真实长度
对于上述提到的性能劣化且出现step不固定的场景,优先考虑使用动态profiling方式进行采集。如图3中所示"if step==5"处,需要在业务代码中添加如下判断逻辑:记录每一个step的耗时,如果某个step的耗时出现异常,即大于正常step耗时或者均值耗时的20%(根据训练日志
长训Loss比对结果 在单卡环境下,执行一个Epoch训练任务,GPU和NPU训练叠加效果如下: 上图中的红色曲线为GPU Loss折线图,蓝色曲线为NPU训练Loss折线图。在整网训练单个Epoch情况下,Loss总体的绝对偏差大约为0.08181。 父主题: 精度对齐
选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 备注:当前版本仅支持语言+图片多模态性能测试。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中。 父主题: 推理性能测试
选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 备注:当前版本仅支持语言+图片多模态性能测试。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中。 父主题: 推理性能测试
选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 备注:当前版本仅支持语言+图片多模态性能测试。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中。 父主题: 推理性能测试
Profiling数据采集 在train.py的main()函数Step迭代处添加配置,添加位置如下图所示: 此处需要注意的是prof.step()需要加到dataloder迭代循环的内部以保证采集单个Step迭代的Profiling数据。 更多信息,请参见Ascend PyTorch
使用Msprobe工具分析偏差 观察上一章Loss趋势,在首个Step有较小偏差,所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。 首先安装社区Msprobe工具,命令如下: pip install mindstudio-probe 使能工具
JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。 父主题: 业务代码问题
【下线公告】华为云ModelArts服务旧版数据集下线公告 华为云计划于2024/10/31 00:00(北京时间)用AI开发平台ModelArts的新版数据集全面替代旧版数据集,旧版数据集正式下线。 下线范围 下线区域:华北-北京四(其他区域已下线) 受影响服务 ModelArts旧版数据集。
推理性能测试 语言模型推理性能测试 多模态模型推理性能测试 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.909)
推理性能测试 语言模型推理性能测试 多模态模型推理性能测试 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.910)
推理性能测试 语言模型推理性能测试 多模态模型推理性能测试 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU推理指导(6.3.911)
调优前后性能对比 在完成上一章几类调优方式之后,在单卡场景下实测性能调优比对结果如下表所示: 设备 batch_size Steps/Sec 1p-GPU Ant8 16 3.17 1p-NPU snt9b 313T 16 2.17 1p-NPU snt9b 313T调优后 16
使用Advisor工具分析生成调优建议 关于Advisor使用及安装过程请参见昇腾社区Gitee。最后生成导出的各类场景的建议包含以下两种: Terminal日志信息的概览建议。 包含Detail信息及修改示例的HTML信息。 按照建议信息做如下修改: 亲和优化器使能,在train
Step4 测试用户权限 由于4中的权限需要等待15-30分钟生效,建议在配置完成后,等待30分钟,再执行如下验证操作。 使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面,请使用“IAM用户登录”方式进行登录。 首次登录会提示修改密码,请根据界面提示进行修改。
多模态模型推理性能测试 多模态模型推理的性能测试目前仅支持静态性能测试。 静态性能测试是指评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 性能benchmark验证使用到的脚本存放在代