检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
G系列弹性云服务器GPU驱动故障 问题描述 在Windows系统的G系列弹性云服务器中,无法打开NVIDIA 控制面板,GPU驱动无法使用或GPU驱动显示异常。 可能原因 GPU驱动状态异常。 处理方法 打开Windows设备管理器,在显示适配器中查看GPU驱动状态。 GPU驱动显示正常
[acl_init_options] ge.op_compiler_cache_mode="force" 迁移后应用出图效果相比GPU无法对齐怎么办? 扩散模型在噪音和随机数上的生成,本身就有一定的随机性,GPU和NPU(Ascend)硬件由于存在一定细小的差别,很难确保完全一致,较难达成生成图片100%匹配,建议通过盲测的方式对效果进行验证。
GPU函数管理 Serverless GPU使用介绍 部署方式 函数模式
深度学习模型预测 深度学习已经广泛应用于图像分类、图像识别和语音识别等不同领域,DLI服务中提供了若干函数实现加载深度学习模型并进行预测的能力。 目前可支持的模型包括DeepLearning4j 模型和Keras模型。由于Keras它能够以 TensorFlow、CNTK或者 Theano
GPU推理业务迁移至昇腾的通用指导 简介 昇腾迁移快速入门案例 迁移评估 环境准备 模型适配 精度校验 性能调优 迁移过程使用工具概览 常见问题 父主题: GPU业务迁移至昇腾训练推理
昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例和最佳实践,并对于实际的操作原理和迁移流程进行说明,包含迁移后的精度和性能验证、调试方法说明。 核心概念 推理业务昇腾迁移整体流程及工具链 图1 推理业务昇腾迁移整体路径
深度学习模型预测 深度学习已经广泛应用于图像分类、图像识别和语音识别等不同领域,DLI服务中提供了若干函数实现加载深度学习模型并进行预测的能力。 目前可支持的模型包括DeepLearning4j 模型和Keras模型。由于Keras它能够以 TensorFlow、CNTK或者 Theano
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
服务质量优先,服务成本次优 预留GPU实例的计费周期不同于按量GPU实例,预留GPU实例是以实例存活生命周期进行计费,而不考虑实例的活跃与闲置(不按请求计费)。因此,相较于按量GPU实例,总体使用成本较高,但相较于长期自建GPU集群,降本幅度达50%以上。 规格最优 函数计算平台提供的GPU实例规格,
云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动,尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化,我们将及时跟进帮助您升级修复。 如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动,请参考上图确认您安装的GPU驱动是否受该漏洞影响。
GPU设备检查 功能 检查节点是否存在gpu设备,gpu驱动是否安装且运行正常。 语法 edgectl check gpu 参数说明 无 使用示例 检查节点GPU设备: edgectl check gpu 检查成功返回结果: +-----------------------+ |
基于AIGC模型的GPU推理业务迁移至昇腾指导 场景介绍 迁移环境准备 pipeline应用准备 应用迁移 迁移效果校验 模型精度调优 性能调优 常见问题 父主题: GPU业务迁移至昇腾训练推理
源的使用额度和时长。在欠费时,您需要及时(15天之内)续费以避免您的文件系统资源被清空。 购买的SFS可以用于存储数据和代码。 如何购买弹性文件服务? 容器镜像服务SWR 容器镜像服务分为企业版和共享版。共享版计费项包括存储空间和流量费用,目前均免费提供给您。企业版支持按需计费模式。
Lite生成的图像和onnx模型的输出结果有明显的差异,因此需要对MindSpore Lite pipeline进行精度诊断。 图1 结果对比 在MindSpore Lite 2.0.0版本中,Stable Diffusion的五个模型的精度都能够保证一致性,但是在最新的2.1.0版本中,会
常见问题 模型转换报错如何查看日志和定位? 日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题: GPU推理业务迁移至昇腾的通用指导
gputil import GPUtil as GPU GPU.showUtilization() import GPUtil as GPU GPUs = GPU.getGPUs() for gpu in GPUs: print("GPU RAM Free: {0:.0f}MB |
执行。 实时感知任务状态 无 并行处理 离线GPU任务需要处理大量数据,对GPU资源供给要求高,通过API调用并行运行加快处理速度。 数据源集成 离线GPU任务对数据源的需求多种多样,处理过程中需要与多种存储产品(例如对象存储OBS)和多种消息产品(例如消息队列)进行频繁交互。 功能优势
GPU实例启动异常,查看系统日志发现NVIDIA驱动空指针访问怎么办? 问题描述 GPU实例启动异常,检查系统日志,发现NVIDIA驱动空指针访问。如图1所示。 图1 NVIDIA驱动空指针访问 可能原因 GPU驱动异常。 处理方法 卸载驱动。 方法1:执行nvidia-uninstall命令,卸载驱动。
模型适配 基于MindSpore Lite的模型转换 动态shape 父主题: GPU推理业务迁移至昇腾的通用指导