云服务器内容精选

  • 昇腾芯片驱动安装 请确保昇腾芯片已插入到节点上,确认设备型号,并从昇腾官方社区下载设备驱动,以及参考驱动安装指导进行安装: 安装完成后,执行以下命令,可查看节点的/dev目录下所有的芯片设备。 ls -l /dev/davinci* 执行如下命令,查看驱动加载是否成功。 npu-smi info 若出现如下回显信息,说明加载成功,具体回显信息请以实际情况为准。否则,说明加载驱动失败。请联系华为技术支持处理。
  • 如何确认节点NPU驱动已安装完成 NPU驱动安装成功后需要重启节点才能生效,且重启节点前需要确认驱动已经安装完成,否则驱动将无法生效,NPU资源不可用。驱动安装完成确认方式如下: U CS 控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,单击插件名称查看插件“实例列表”,实例状态为“运行中”。 若在NPU驱动安装完成前就重启了节点,可能导致驱动安装失败,节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动,再重启节点,才能重新安装NPU驱动,按上述步骤确认驱动安装完成后再重启节点。
  • 安装插件 登录UCS控制台,选择容器舰队,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到huawei-npu插件,单击“安装”。 设置NPU参数,该插件推荐使用默认参数。插件提供的默认NPU参数可满足大多数的使用场景,您无需修改。 完成以上配置后,单击“安装”。 图1 安装huawei-npu插件 安装huawei-npu插件,需要确认已安装volcano插件。 驱动安装成功后需要重启节点才能生效,驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。 插件卸载不会自动删除已安装的NPU驱动,用户需自行卸载删除相关资源。
  • 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。 apiVersion: apps/v1 kind: Deployment metadata: annotations: description: '' labels: appgroup: '' version: v1 name: demo namespace: default spec: selector: matchLabels: app: demo version: v1 template: metadata: labels: app: demo version: v1 spec: containers: - name: container-1 image: swr.cn-north-7.myhuaweicloud.com/ief-ies/demo:latest imagePullPolicy: IfNotPresent env: - name: PAAS_APP_NAME value: demo - name: PAAS_NAMESPACE value: default - name: PAAS_PROJECT_ID value: 0aa612a71f80d4322fe0c010beb80e8a resources: requests: cpu: 250m memory: 512Mi huawei.com/ascend-1980: '1' ##需要使用的npu卡数量 limits: cpu: 250m memory: 512Mi huawei.com/ascend-1980: '1' ##需要使用的npu卡数量 terminationGracePeriodSeconds: 30 schedulerName: volcano ## 使用的调度器指定为volcano tolerations: - key: node.kubernetes.io/not-ready operator: Exists effect: NoExecute tolerationSeconds: 300 - key: node.kubernetes.io/unreachable operator: Exists effect: NoExecute tolerationSeconds: 300 initContainers: [] volumes: [] replicas: 2 revisionHistoryLimit: 10 strategy: type: RollingUpdate rollingUpdate: maxUnavailable: 25% maxSurge: 25% progressDeadlineSeconds: 600