云服务器内容精选

  • 步骤六:调用 调用DeepSeek-V3 curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"请讲一个笑话"}],"model":"DeepSeek-V3","temperature":0,"max_tokens":128}' -X POST http://${ip}:${port}/v1/chat/completions 调用DeepSeek-R1 curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"请讲一个笑话"}],"model":"DeepSeek-R1","temperature":0,"max_tokens":128}' -X POST http://${ip}:${port}/v1/chat/completions ip:为步骤五:在每个节点进入容器并启动推理服务第4小步中配置的config.json中ipAddress值 port:为步骤五:在每个节点进入容器并启动推理服务第4小步中配置的config.json中port字段的值 请求调用返回json参考如下:
  • 步骤三:创建rank_table_file.json 在启动容器前需要使用rank_table_file.json文件用于多机部署。 检查机器网络情况 # 检查物理链接 for i in {0..7}; do hccn_tool -i $i -lldp -g | grep Ifname; done # 检查链接情况 for i in {0..7}; do hccn_tool -i $i -link -g ; done # 检查网络健康情况 for i in {0..7}; do hccn_tool -i $i -net_health -g ; done # 查看侦测ip的配置是否正确 for i in {0..7}; do hccn_tool -i $i -netdetect -g ; done # 查看网关是否配置正确 for i in {0..7}; do hccn_tool -i $i -gateway -g ; done # 检查NPU底层tls校验行为一致性,建议全0 for i in {0..7}; do hccn_tool -i $i -tls -g ; done | grep switch # NPU底层tls校验行为置0操作 for i in {0..7};do hccn_tool -i $i -tls -s enable 0;done 获取每张卡的IP地址。 for i in {0..7};do hccn_tool -i $i -ip -g; done 配置rank_table_file.json文件,并复制到每台机器上的${path-to-file}目录中。存放路径例如:/home/data/rank_table_file.json。详细样例参见附录:rank_table_file.json文件。 设置rank_table_file.json文件权限。进入rank_table_file.json文件存放目录${path-to-file},执行如下命令。 chmod 640 rank_table_file.json
  • 步骤二:获取推理镜像 镜像获取命令如下。 docker pull swr.cn-southwest-2.myhuaweicloud.com/ei-mindie/mindie:2.0.T3-800I-A2-py311-openeuler24.03-lts 如果是权限导致的镜像拉取失败,请参考昇腾社区提供的MindIE镜像申请并下载2.0.T3-800I-A2-py311-openeuler24.03-lts版本的镜像。
  • 步骤四:启动容器 启动容器镜像前请先按照参数说明修改${}中的参数。docker启动失败会有对应的error提示,启动成功会有对应的docker id生成,并且不会报错。 docker run -itd --privileged \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ -v /etc/localtime:/etc/localtime \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /usr/local/Ascend/firmware:/usr/local/Ascend/firmware \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v ${dir}:${container_work_dir} \ --net=host \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明: --device=/dev/davinci0,..., --device=/dev/davinci7:挂载NPU设备,挂载了8张卡davinci0~davinci7。 -v ${dir}:${container_work_dir} 表示需要在容器中挂载宿主机中文件在目录。dir为宿主机中的${path-to-file}目录,存放的是权重文件和rank_table_file.json文件,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/home/ma-user目录,此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下,拉起容器时会与基础镜像冲突,导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 不要将同一个NPU挂载给多个容器使用,会导致后续的容器无法正常使用NPU功能。 --name ${container_name}:容器名称,进入容器时会用到,此处可以自己定义一个容器名称。 {image_id} 为docker镜像的ID,在宿主机上可通过docker images查询得到。
  • 步骤五:在每个节点进入容器并启动推理服务 进入容器。 docker exec -it -u root ${container-name} /bin/bash 修改MindIE文件权限。 cd /usr/local/Ascend/mindie/latest chmod 750 mindie-service chmod -R 550 mindie-service/bin chmod -R 500 mindie-service/bin/mindie_llm_backend_connector chmod 550 mindie-service/lib chmod 440 mindie-service/lib/* chmod 550 mindie-service/lib/grpc chmod 440 mindie-service/lib/grpc/* chmod -R 550 mindie-service/include chmod -R 550 mindie-service/scripts chmod 750 mindie-service/logs chmod 750 mindie-service/conf chmod 640 mindie-service/conf/config.json chmod 700 mindie-service/security chmod -R 700 mindie-service/security/* 启动推理前需要先配置服务化环境变量。 source /usr/local/Ascend/ascend-toolkit/set_env.sh source /usr/local/Ascend/nnal/atb/set_env.sh source /usr/local/Ascend/atb-models/set_env.sh export HCCL_OP_EXPANSION_MODE="AIV" export ATB_LLM_HCCL_ENABLE=1 export ATB_LLM_COMM_BACKEND="hccl" export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export MIES_CONTAINER_IP=${container_ip} export RANKTABLEFILE=${RANKTABLEFILE} export HCCL_DETERMINISTIC=false export PARALLEL_PA RAM S=[1,16,1,16,-1,-1] export ATB_WORKSPACE_MEM_ALLOC_ALG_TYPE=3 export ATB_WORKSPACE_MEM_ALLOC_GLOBAL=1 export NPU_MEMORY_FRACTION=0.96 ${container_ip}:当前容器的IP地址,和rank_table_file.json文件中配置的container_ip保持一致。 expandable_segments-使能内存池扩展段功能,即虚拟内存特性。 ${RANKTABLEFILE}:rank_table_file.json文件挂载到容器中的地址${container_work_dir}/rank_table_file.json。 PARALLEL_PARAMS=[dp,tp,moe_tp,moe_ep,pp,microbatch_size],当前推荐配置为 tp=16, moe_ep=16。 NPU_MEMORY_FRACTION:表示显存比。 修改config.json文件中的服务化参数。config.json文件修改要求和样例参考附录:config.json文件。 cd /usr/local/Ascend/mindie/latest/mindie-service/ vim conf/config.json 启动推理服务。 # 拉起服务化 cd /usr/local/Ascend/mindie/latest/mindie-service/ ./bin/mindieservice_daemon 执行命令后出现“Daemon start success!”,表示服务成功启动。
  • 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。如果驱动版本不是24.1.0,请先升级驱动和对应固件。 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 24.1.0版本驱动文件为Ascend-hdk-910b-npu-driver_24.1.0_linux-aarch64.run,对应固件文件为Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run,请申请下载。 安装固件命令如下,安装完后需要reboot重启机器。 chmod 700 *.run ./Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run --full reboot 安装24.1.0驱动命令如下: ./Ascend-hdk-910b-npu-driver_24.1.0_linux-aarch64.run --full --install-for-all 安装完成后再使用如下命令查看是否安装正确。 npu-smi info -t board -i 1 | egrep -i "software|firmware" 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward
  • 部署流程 表1 部署流程 部署任务 子任务 AR开局部署 开启SD-WAN服务 创建站点并添加设备 配置网络设计参数 配置WAN链路模板 配置站点接入WAN侧网络的链路 配置NTP 配置站点连接RR 邮件开局 确认开局成功 站点互联配置 配置Underlay网络 创建Overlay网络 确认配置是否成功 配置站点上网策略 应用管理 查看预定义应用 创建自定义应用 创建应用组 使用应用及应用组 业务体验优化策略 配置流量分配 配置QoS策略 配置智能选路策略 查看全网数据 查看全网数据 父主题: 部署指导
  • 部署流程 表1 部署流程 部署任务 子任务 AR开局部署 开启SD-WAN服务 创建站点并添加设备 配置网络设计参数 配置WAN链路模板 配置站点接入WAN侧网络的链路 配置NTP 配置站点连接RR 邮件开局 确认开局成功 站点互联配置 配置Underlay网络 创建Overlay网络 确认配置是否成功 配置站点上网策略 应用管理 查看预定义应用 创建自定义应用 创建应用组 使用应用及应用组 业务体验优化策略 配置流量分配 配置Overlay ACL策略 配置QoS策略 配置智能选路策略 查看全网数据 查看全网数据 父主题: 部署指导