检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MindSpore Lite问题定位指南 在MindSpore Lite使用中遇到问题时,例如模型转换失败、训练后量化转换失败、模型推理失败、模型推理精度不理想、模型推理性能不理想、使用Visual Studio报错、使用Xcode构建APP报错等,您可以先查看日志信息进行定位分析。
C++调用CANN层接口Ascend Computing Language(AscendCL)调用一个或几个亲和算子组合的形式,代替原有GPU的实现方式,具体逻辑模型请参考PyTorch自动迁移。 在PyTorch模型迁移后进行训练的过程中,CPU只负责算子的下发,而NPU负责算
单模型性能调优AOE 使用AOE工具可以在模型转换阶段对于模型运行和后端编译过程进行执行调优。请注意AOE只适合静态shape的模型调优。在AOE调优时,容易受当前缓存的一些影响,建议分两次进行操作,以达到较好的优化效果(第一次执行生成AOE的知识库,在第二次使用时可以复用)。在
pipeline代码适配 onnx pipeline的主要作用是将onnx模型进行一系列编排,并在onnx Runtime上按照编排顺序执行。因此,需要将转换得到的mindir模型按照相同的逻辑进行编排,并在MindSpore Lite上执行。只需要将原始onnx的pipelin
离线排序作业名称(在线训练任务需要提供此参数)。 update_interval Integer 更新周期(在线训练任务需要提供此参数)。 optimizer Optimizer object 优化器(在线训练任务需要提供此参数)。 flows Flow object 在线流程(在线训练任务需要提供此参数)。
在线仿真配置 使用在线仿真器,需要用户进行一些单独配置。 关闭锁屏。 图1 关闭锁屏 调整屏幕分辨率。 图2 调整屏幕分辨率 修改默认浏览器(改成chrome或firefox,使用KDE自带的Konqueror目前有兼容问题)。 图3 修改默认浏览器 父主题: 在线仿真
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 问题原因 显卡散热异常、风扇损坏。 问题影响 显卡温度过高,影响用户业务。 处理方法 执行nvidia-smi命令,查看风扇是否正常。 如果风扇转速为0,说明风扇可能存在损坏,用户停止业务,执行业务迁移后,根据故障
离线排序作业名称(在线训练任务需要提供此参数)。 update_interval Integer 更新周期(在线训练任务需要提供此参数)。 optimizer Optimizer object 优化器(在线训练任务需要提供此参数)。 flows Flow object 在线流程(在线训练任务需要提供此参数)。
精度调优总体思路 PyTorch大模型训练的精度问题的分析、定位可以参考如下思路: 大模型训练通常使用多机训练,鉴于多机训练复现问题的成本较高,且影响因子较多,建议用户先减少模型层数,使模型能够单机训练,确认单机训练是否也存在精度问题,若存在,则使用下述手段定位精度问题,使得单机精度达标,然后再恢复层数拉起多机训练。
0 到 1 制作自定义镜像并用于训练(PyTorch+CPU/GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux
您可以部署10个在线服务,每个在线服务可以创建2个在线流程 ,如需增加配额请您提工单处理。 由于在线运行需消耗资源,确保账户未欠费。 如果账户欠费,账号将被冻结,服务会被停止运行,您无法对服务执行调用、启动或者编辑操作。 操作步骤 登录RES管理控制台,在左侧导航栏选择进入“在线服务”页面。
您也可以通过单击预测接口右侧的,复制接口地址,调用服务。 图1 在线服务详情 您可以在如下页面查看服务相关参数信息,包括“在线流程”、“预测”、“配置更新记录”、“排序模型更新记录”。 表2 在线服务详情 参数 说明 在线流程 展示在线流程名称、在线流程ID以及在线流程关于融合、过滤、排序、公共配置和模型相关的参数信息。
执行以下命令,查看安装结果。 lspci -d 10de: 图1 安装结果 GPU指标采集需要依赖以下驱动文件,请检查环境中对应的驱动文件是否存在。如果驱动未安装,可参见(推荐)GPU加速型实例自动安装GPU驱动(Linux)。 Linux驱动文件 nvmlUbuntuNvidiaLibraryPath
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 问题原因 某种健全性检查没有通过,GPU驱动程序不会使用或信任其内容(某些内容未被使用)。 问题影响 可能影响ECC相关非易失数据的记录,从而导致本该隔离的GPU内存页面继续使用。
离线排序作业名称(在线训练任务需要提供此参数)。 update_interval 否 Integer 更新周期(在线训练任务需要提供此参数)。 optimizer 否 Optimizer object 优化器(在线训练任务需要提供此参数)。 flows 否 Flow object 在线流程(在线训练任务需要提供此参数)。
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
选择需要删除的在线服务,单击列表上方的“删除”,批量删除在线服务。 内置在线服务不支持删除。 查看在线服务详情 单击在线服务名称,查看在线服务详情。 在线服务详情页,查看在线服务基本信息、调用接口和配置信息。 查询在线服务 在搜索输入框中输入搜索条件,按回车键即可查询。 在线服务相关操作与任务所处状态约束关系请见下表:
查询在线用户 典型场景 提供查询在线用户北向接口。 接口功能 页面功能:准入/准入策略/用户在线控制/在线用户/筛选(搜索)操作 查询在线用户列表。默认按照认证时间降序排列。 接口约束 该接口支持北向管理员访问,必须在用户会话建立后使用。 调用方法 GET URI /contro
、便捷。 在线课程首页 在线课程首页,致力于打造便捷快速的学习体验,让用户可以快速找到合适自己的学习资源和课程。 在线课程分类 图1 在线课程分类 默认情况下,首页会显示全部课程供用户选择。如果用户对某个特定的领域感兴趣,可以单击对应的分类进行筛选。 在线课程列表 在线课程列表展
在线问答 点击实验界面的【在线问答】,可向智能问答机器人咨询实验问题。若智能问答机器人无法解决疑问,可点击在线问答框中顶部的【和做过本实验的小伙伴一起讨论实验吧】,进入该实验的交流讨论贴中发帖求助或与其他完成该实验的用户进行交流。 父主题: 实验界面介绍