盘古大模型 PANGULARGEMODELS-边缘部署准备工作
边缘部署准备工作
本指南的边缘部署操作以largemodel集群为例,示例集群信息如下表。
集群名 |
节点类型 |
节点名 |
规格 |
备注 |
---|---|---|---|---|
largemodel |
controller |
ecs-edge-30037210 |
鲲鹏通用计算型|8vCPUs|29GiB|rc3.2xlarge.4镜像 EulerOS 2.9 64bit with ARM for Tenant 20230728 base 2.9.15 |
公网IP:100.85.220.207 root密码: CPU架构:aarch64(登录设备,执行arch命令查看) |
worker |
bms-pangu30037210 |
CPU:Kunpeng 920(4*48Core@2.6GHz) 内存:24*64GB DDR4 RAM (GB) 本地磁盘:3*7.68TB NVMe SSD 扩展配置:2*100GE+8*200GE 类型:physical.kat2e.48xlarge.8.313t.ei.pod101 euler2.10_arm_sdi3_1980b_hc_sdi5_b080_20230831v2 |
公网IP:100.85.216.151 root密码: CPU架构:aarch64(登录设备,执行arch命令查看) |
- 依赖包下载。
选择对应cpu架构下载,docker版本选在19.0.3+。
按照对应cpu架构下载二进制文件以及air-gap镜像。
- npu驱动和固件安装。
执行命令npu-smi info查看驱动是否已安装。如果有回显npu卡信息,说明驱动已安装。
详情请参见昇腾官方文档。
- hccn too网卡配置。
- 执行如下命令,查看是否有回显网卡信息。如果有,则说明网卡已经配置,否则继续操作下面步骤。
cat /etc/hccn.conf
- 执行如下命令,查看npu卡数。
npu-smi info
- 执行如下命令(地址自行配置):
hccn_tool -i 0 -ip -s address 192.168.0.230 netmask 255.255.255.0 hccn_tool -i 1 -ip -s address 192.168.0.231 netmask 255.255.255.0 hccn_tool -i 2 -ip -s address 192.168.0.232 netmask 255.255.255.0 hccn_tool -i 3 -ip -s address 192.168.0.233 netmask 255.255.255.0 hccn_tool -i 4 -ip -s address 192.168.0.234 netmask 255.255.255.0 hccn_tool -i 5 -ip -s address 192.168.0.235 netmask 255.255.255.0 hccn_tool -i 6 -ip -s address 192.168.0.236 netmask 255.255.255.0 hccn_tool -i 7 -ip -s address 192.168.0.237 netmask 255.255.255.0
- 执行命令cat /etc/hccn.conf,确保有如下回显网卡信息,则配置完成。
- 执行如下命令,查看是否有回显网卡信息。如果有,则说明网卡已经配置,否则继续操作下面步骤。
- 配置NFS网盘服务。