检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于advisor的昇腾训练性能自助调优指导 advisor调优总体步骤 创建诊断任务 查看诊断报告 父主题: GPU业务迁移至昇腾训练推理
confusion_transpose, 梯度裁剪和亲和优化器等多个可替换的API,用户可根据代码堆栈找到需要替换的具体源码,然后根据API instruction跳转后的参考文档修改源代码,从而使能亲和API提升训练性能。注意这里提示的亲和API并非都能提升训练性能,需要用户替换后实测,由于有
在ModelArts的Notebook中使用VS Code调试代码无法进入源码怎么办? 如果已有launch.json文件,请直接看步骤三。 步骤一:打开launch.json文件 方法一:单击左侧菜单栏的Run(Ctrl+Shift+D)按钮,再单击create a launch
详细介绍请查看查看诊断报告。 图9 查看性能诊断报告 Report页面将每隔5s自动刷新一次。 父主题: 基于advisor的昇腾训练性能自助调优指导
度和最大功率。 图5 性能分析报告展示 图6 计算维度节点降频问题 图7 节点降频及其影响算子 父主题: 基于advisor的昇腾训练性能自助调优指导
NodeCondtition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。 当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,如果不是,则为故障,请联系客户经理发起维修流程(如果无客户经理可提交工单)。 表1 节点故障类型定义 NodeCondition
sh脚本一键适配。在用户通过Dockerfile构建模型的环境镜像时会执行该脚本,这会从github上拉取模型的官方源码,并通过git apply qwen-vl.patch的方式进行NPU适配,最后将以上源码和环境打包至镜像中。 AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference
当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会
源池,训练作业创建成功后,支持在训练时访问SFS中的数据。 专属资源池支持自定义物理节点运行环境相关的能力,例如GPU/Ascend驱动的自助升级,而公共资源池暂不支持。 专属资源池有什么能力? 新版专属资源池是一个全面的技术和产品的改进,主要能力提升如下: 专属资源池类型归一:
库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载的开发环境,将数据复制至notebook中的代码示例:
Cluster资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。 约束限制 Lite Cluster资源池节点驱动状态处于运行中,且
当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会
sh脚本一键适配。在用户通过Dockerfile构建模型的环境镜像时会执行该脚本,这会从github上拉取模型的官方源码,并通过git apply qwen-vl.patch的方式进行NPU适配,最后将以上源码和环境打包至镜像中。 AscendCloud-AIGC-6.3.912-xxx ├─aigc_inference
下载Megatron-LM、MindSpeed、ModelLink源码,并将以上源码打包至镜像环境中。 若用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 Notebook中构建新镜像方案
在定位精度问题之前,首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境(GPU/CPU)设置的不一致导致,为了在定位过程中少走弯路,需要在定位前先对训练环境及代码做有效排查。此外,问题定位主要基于
昇腾云服务6.3.904版本说明 昇腾云服务6.3.904版本发布支持的软件包和能力说明如下,软件包获取路径:Support-E网站。 发布包 软件包特性说明 配套说明 备注 昇腾云模型代码 三方大模型,包名:AscendCloud-3rdLLM PyTorch框架下支持如下模型训练:
推理业务迁移到昇腾的通用流程,可参考GPU推理业务迁移至昇腾的通用指导。 由于Huggingface网站的限制,访问Stable Diffusion链接时需使用代理服务器,否则可能无法访问网站。 在Stable Diffusion迁移适配时,更多的时候是在适配Diffusers和Stable
GPU训练业务迁移至昇腾的通用指导 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导 Dit模型Pytorch迁移与精度性能调优 msprobe工具使用指导
单模型性能测试工具Mindspore lite benchmark 在模型精度对齐后,针对Stable Diffusion模型性能调优,您可以通过AOE工具进行自助性能调优,进一步可以通过profiling工具对于性能瓶颈进行分析,并针对性的做一些调优操作。 您可以直接使用benchmark命令测试m
stable-diffusion-v1-5 pytorch_models 此处由于Huggingface网站的限制以及模型文件的大小原因,很可能会下载失败。您可以登录Huggingface网站,从浏览器下载模型后,再手动上传到物理机/home/pytorch_models目录下。 通过git下载sd