检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
步骤一:量化模型权重 在GPU的机器上使用开源GPTQ量化工具GPTQ (huggingface.co)量化模型权重。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
> 0 W 云手机服务器 1分钟 gpu_usage_temperature GPU温度 该指标用于统计测量对象当前的GPU温度。 > 0 ℃ 云手机服务器 1分钟 gpu_usage_status GPU状态 该指标用于统计测量对象当前的GPU状态。
图1 选择指标源 通过“全量指标”或“按普罗语句添加”方式选择一个或多个关注的指标。 图2 添加指标 关于更多指标浏览方法请参考华为云帮助中心“应用运维管理 AOM> 用户指南(2.0)> 指标浏览”。
处理方法 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。 请排查是否使用的是GPU资源。
父主题: 模型地图(旧版)
采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0-100% 云桌面 1分钟 gpu_usage_gpu (Agent) GPU使用率 该指标用于统计测量对象当前的GPU使用率。
如果没有挂载EVS等磁盘,应用数据存储在容器的物理机磁盘,每个Pod存储空间限制为CPU物理机磁盘为20G,GPU物理机磁盘为20G,如果为专属节点可根据客户需求进行调整。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
GET http://{SERVER_URL}/ges/v1.0/{project_id}/hyg/{graph_name}/summary SERVER_URL:图的访问地址,取值请参考业务面API使用限制。
CCE Standard集群支持虚拟机与裸金属服务器混合、GPU、NPU等异构节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境。 Turbo: CCE Turbo集群。
按需计费的普通实例(不含本地盘和FPGA卡的实例,非裸金属实例)、竞价模式的竞价计费普通实例(不含本地盘和FPGA卡的实例,非裸金属实例),关机后,基础资源(vCPU、内存、镜像、GPU)不再计费,绑定的云硬盘(包括系统盘、数据盘)、弹性公网IP、带宽等资源按各自产品的计费方法(“
如果模型是用device_map参数量化的,请确保在保存之前将整个模型移动到GPU或CPU。例如,要将模型保存在CPU上。
如图1所示,填写边缘节点的名称,AI加速卡选择“Nvidia GPU”,不绑定终端设备。 图1 基本配置 如图2所示,为节点配置系统日志和应用日志。您可以自行选择是否开启云端日志(开启后,可在AOM服务中查看日志)。