盘古大模型 PANGULARGEMODELS-边缘部署准备工作

时间:2024-09-05 14:59:04

边缘部署准备工作

本指南的边缘部署操作以largemodel集群为例,示例集群信息如下表。

表1 示例集群信息

集群名

节点类型

节点名

规格

备注

largemodel

controller

ecs-edge-30037210

鲲鹏通用计算型|8vCPUs|29GiB|rc3.2xlarge.4镜像

EulerOS 2.9 64bit with ARM for Tenant 20230728 base 2.9.15

公网IP:100.85.220.207

root密码:

CPU架构:aarch64(登录设备,执行arch命令查看)

worker

bms-pangu30037210

CPU:Kunpeng 920(4*48Core@2.6GHz)

内存:24*64GB DDR4 RAM (GB)

本地磁盘:3*7.68TB NVMe SSD

扩展配置:2*100GE+8*200GE

类型:physical.kat2e.48xlarge.8.313t.ei.pod101 euler2.10_arm_sdi3_1980b_hc_sdi5_b080_20230831v2

公网IP:100.85.216.151

root密码:

CPU架构:aarch64(登录设备,执行arch命令查看)

  1. 依赖包下载。

    选择对应cpu架构下载,docker版本选在19.0.3+。

    按照对应cpu架构下载二进制文件以及air-gap镜像。

  2. npu驱动和固件安装。

    执行命令npu-smi info查看驱动是否已安装。如果有回显npu卡信息,说明驱动已安装。

    详情请参见昇腾官方文档

  3. hccn too网卡配置。
    1. 执行如下命令,查看是否有回显网卡信息。如果有,则说明网卡已经配置,否则继续操作下面步骤。
      cat /etc/hccn.conf
    2. 执行如下命令,查看npu卡数。
      npu-smi info
    3. 执行如下命令(地址自行配置):
      hccn_tool -i 0 -ip -s address 192.168.0.230 netmask 255.255.255.0
      hccn_tool -i 1 -ip -s address 192.168.0.231 netmask 255.255.255.0
      hccn_tool -i 2 -ip -s address 192.168.0.232 netmask 255.255.255.0
      hccn_tool -i 3 -ip -s address 192.168.0.233 netmask 255.255.255.0
      hccn_tool -i 4 -ip -s address 192.168.0.234 netmask 255.255.255.0
      hccn_tool -i 5 -ip -s address 192.168.0.235 netmask 255.255.255.0
      hccn_tool -i 6 -ip -s address 192.168.0.236 netmask 255.255.255.0
      hccn_tool -i 7 -ip -s address 192.168.0.237 netmask 255.255.255.0
    4. 执行命令cat /etc/hccn.conf,确保有如下回显网卡信息,则配置完成。

  4. 配置NFS网盘服务。

    大模型采用镜像+模型分开的方式部署时,需要有一个节点来提供NFS网盘服务,创建部署时通过NFS挂载的方式访问模型。

support.huaweicloud.com/ugobs-obs-pangulm/pangulm_03_0065.html