profiling
api接口性能监控工具
api接口性能监控工具针对基于Profiling性能分析工具的关键性能数据采集、热点函数,提供一站式分析工具,帮助用户快速定位性能瓶颈。不支持在同一个Device侧同时拉取网络。Profiling不支持多个基于相同结果目录的Profiling,可能会导致采集的数据结果不准确。比如main程序中包含多个独立推理任务,通过Profiling调用时会出现该问题。不支持在同一个Device侧同时拉起多个Profiling任务。配置Profiling相关路径时,仅支持路径由字母、数字和下划线字符组成,不支持带有特殊字符的路径。Profiling功能与Dump功能不建议同时使用,即启动Profiling前,请关闭数据Dump。原因:如果同时开启,由于Dump操作会影响系统性能,会造成Profiling采集的性能数据指标不准确。采集Profiling数据过程中如果配置的落盘路径磁盘空间已满,会出现性能数据无法落盘情况,因此,需要用户保证磁盘空间够用。另外,落盘的性能原始数据需要用户自行老化,预防磁盘空间被占满(MB/s)。落盘的性能原始数据可以通过配置storage-limit参数来预防磁盘空间被占满(<=20MB)(/s),用户将磁盘内最早的文件进行老化删除处理。
ai识字
ai识字:为了改善los鲲鹏计算的性能,可获得相同性能瓶颈。在程序训练过程中,FP+FP+BP耗时占总耗时,不存在性能瓶颈。基于以上的性能数据增强可以通过更新拖尾,开启Profiling功能查看。Profiling性能分析功能与优化提供的性能数据(如bp_point+fp_point+fp_point整个链路的算子耗时具体情况)。在该文件中,着重看TaskDuration列,它记录着当前算子的耗时。可以通过表格中的自定义排序,选择TaskDuration为主要关键字,进行降序重排表格,开头部分截图如下。可见,当前网络中涉及的算子,最大耗时仅231.54us。图6op_summary从该表中依旧无法判断耗时较长的原因,那么继续打开AICore算子调用次数及耗时数据。该文件是对bp_point+fp_point整个链路上算子,不区分OPName,按算子的OPType做了统计。比如将Mul算子统计为一行,统计调用次数,总耗时,平均耗时,最大耗时,最小耗时等。通过表格中的自定义排序,选择Ratio(%)为主要关键字,进行降序重排表格,截图如下。可见,AICPU在整体耗时占比达到76.5%。通过表格中的自定义排序,选择Total_time为主要关键字,进行降序重排表格,截图如下。可以看到在AICPU中耗时最大的是dropout算子中的随机数函数,且已经达到了毫秒级别。图8aicpu到此Profiling性能分析工具的任务已经完成。问题解决查看用户脚本,发现用户脚本中的drop脚本使用的是TensorFlow的原生脚本。