-
动态扩充云硬盘EVS容量 - AI开发平台ModelArts
单次最大可以扩容100GB,扩容后的总容量不超过4096GB。 云硬盘EVS存储容量最大支持4096GB,达到4096GB时,不允许再扩容。 实例停止后,扩容后的容量仍然有效。计费也是按照扩容后的云硬盘EVS容量进行计费。 云硬盘EVS只要使用就会计费,请在停止Notebook实例后,确认不
-
查看性能 - AI开发平台ModelArts
查看性能 查看SFT全参微调的日志和性能,具体方法请参见查看日志和性能。 父主题: SFT全参微调
-
查看日志和性能 - AI开发平台ModelArts
实例日志路径为/home/ma-user/ws/saved_dir_for_ma_output/Llama2-70B/logs 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*se
-
查看日志和性能 - AI开发平台ModelArts
tput/Qwen-14B/logs 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*seq_length/(总卡数*elapsed time per iteration)*100
-
查看日志和性能 - AI开发平台ModelArts
put/llama2-70b/logs 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*seq_length/(总卡数*elapsed time per iteration)*1000,其global
-
查看日志和性能 - AI开发平台ModelArts
s,本实例日志路径为/home/ma-user/ws/saved_dir_for_ma_output/GLM3-6B/logs 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*se
-
查看日志和性能 - AI开发平台ModelArts
本实例日志路径为/home/ma-user/ws/saved_dir_for_ma_output/BaiChuan2-13B/logs。 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。 吞吐量(tokens/s/p):global batch size*se
-
训练作业性能问题 - AI开发平台ModelArts
训练作业性能问题 训练作业性能降低 父主题: 训练作业
-
推理性能测试 - AI开发平台ModelArts
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
-
推理性能测试 - AI开发平台ModelArts
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
-
训练作业性能降低 - AI开发平台ModelArts
通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。 父主题: 训练作业性能问题
-
性能调优 - AI开发平台ModelArts
性能调优 单模型性能测试工具Mindspore lite benchmark 单模型性能调优AOE 父主题: AIGC推理业务昇腾迁移指导
-
性能调优 - AI开发平台ModelArts
可以通过输出日志来进行判断。 自助性能调优三板斧 基于上一步完成的性能测试,为了最大化模型推理性能,首先确保当前使用的CANN版本是最新版本(最新版本请见此处),每个迭代的CANN版本都有一定的性能收益。在此基础上,可以进行三板斧自助工具式性能调优。这些调优过程由大量的项目交付经
-
性能调优 - AI开发平台ModelArts
性能调优 算子优化 为了更好地发挥昇腾设备的性能,将ChatGLM-6B原模型中的部分算子替换成了NPU亲和的算子,修改的是modeling_chatglm.py文件,下图通过对比列举了对应的修改方式,图示中左边为原始方式,右边为修改后的方式。 使用torch.bmm替换torch
-
查看日志和性能 - AI开发平台ModelArts
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
-
开发环境中如何选择存储 - AI开发平台ModelArts
云上开发环境中各种存储使用场景说明 存储类型 建议使用场景 优点 缺点 云硬盘EVS 比较适合只在开发环境中做数据、算法探索,性能较好。 块存储SSD,可以理解为一个磁盘,整体IO性能比NFS要好,可以动态扩充,最大可以到4096GB。 云硬盘EVS作为持久化存储挂载在/home/ma-user/wo
-
推理性能测试 - AI开发平台ModelArts
推理性能测试 本章节介绍如何进行推理性能测试,建议在在Notebook的JupyterLab中另起一个Terminal,执行benchmark脚本进行性能测试。若需要在生产环境中进行推理性能测试,请通过调用接口的方式进行测试。 benchmark方法介绍 性能benchmark包括两部分。
-
性能调优五板斧 - AI开发平台ModelArts
通常可简单地基于性能优化五板斧先尝试做性能调优: NPU融合算子API和亲和优化器 算子二进制调优 AOE自动性能调优 多进程绑核 优化数据处理 NPU融合算子API和亲和优化器 可对训练代码中的部分API替换成NPU融合算子API和亲和优化器,从而提升训练性能。但需要注意的是,
-
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts
单模型性能测试工具Mindspore lite benchmark 在模型精度对齐后,针对SD模型性能调优,可以通过AOE工具进行自助性能调优,进一步可以通过profiling工具对于性能瓶颈进行分析,并针对性的做一些调优操作。 可以直接使用benchmark命令测试mindir
-
性能调优总体原则和思路 - AI开发平台ModelArts
综上所述,性能优化的总体原则为:减少Host算子下发时间、减少Device算子执行时间。 训练代码迁移完成后,如存在性能不达标的问题,可参考下图所示流程进行优化。建议按照单卡、单机多卡、多机多卡的流程逐步做性能调优。 图2 性能调优总体思路 父主题: PyTorch迁移性能调优