检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上
NVIDIA GPU驱动漏洞公告(CVE-2021-1056) 漏洞详情 NVIDIA公布了关于NVIDIA GPU驱动的一个漏洞CVE-2021-1056,该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。
使用spark-submit提交Spark应用程序的工作原理如下: 创建一个Pod,用于运行Spark的驱动程序。 驱动程序在集群中创建执行程序的Pod并与其建立连接,用于执行应用程序代码。
如何选择GPU节点驱动版本 一般情况下,使用GPU资源时您将会使用以下软件包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。
true:关闭GPU的GSP firmware driver_mount_paths 否 String 自动挂载到GPU容器里的路径 默认值:"bin,lib64" enable_fault_isolation 否 Bool 默认值:true true:插件识别GPU硬件故障或驱动程序问题
由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510.47.03,驱动程序默认会占用280MiB;而该显存占用与厂商的驱动程序版本也有一定相关性,例如535系列驱动比470系列占用更多。
云原生网络2.0模型说明 云原生网络2.0模型 云原生网络2.0是自研的新一代容器网络模型,深度整合了虚拟私有云VPC的弹性网卡(Elastic Network Interface,简称ENI)和辅助弹性网卡(Sub Network Interface,简称Sub-ENI)的能力,
Underlay模式是借助驱动程序将节点的底层网络接口直接暴露给容器使用的一种网络构建技术,享有较高的性能,较为常见的解决方案有IP VLAN等。
支持在挂载时将Pod fsGroup传递给CSI驱动程序 将fsGroup委托给CSI驱动程序管理首先在Kubernetes 1.22中作为Alpha特性引入, 并在Kubernetes 1.25中进阶至Beta状态。
支持在挂载时将Pod fsGroup传递给CSI驱动程序 将fsGroup委托给CSI驱动程序管理首先在Kubernetes 1.22中作为Alpha特性引入, 并在Kubernetes 1.25中进阶至Beta状态。
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tensorflow
可能需要相应地更新CSI驱动程序,以正确创建和处理目标路径。 kube-proxy --healthz-port和--metrics-port参数不建议使用,请使用--healthz-bind-address和--metrics-bind-address。
可能需要相应地更新CSI驱动程序,以正确创建和处理目标路径。 kube-proxy --healthz-port和--metrics-port参数不建议使用,请使用--healthz-bind-address和--metrics-bind-address。
工作负载异常:实例驱逐异常(Evicted) 驱逐原理 当节点出现异常时,为了保证工作负载的可用性,Kubernetes会通过驱逐机制(Eviction)将该节点上的Pod调离异常节点。 目前Kubernetes中存在两种Eviction机制,分别由kube-controller-manager
使用Kubernetes默认GPU调度 CCE支持在容器中使用GPU资源。 前提条件 创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认
详情及示例请见Helm官方文档:https://v3.helm.sh/docs/faq/changes_since_helm2 默认存储驱动程序更改为secrets Helm v2 默认情况下使用 ConfigMaps 存储发行信息,而在 Helm v3 中默认使用 Secrets
自定义StorageClass 应用现状 CCE中使用存储时,最常见的方法是创建PVC时通过指定StorageClassName定义要创建存储的类型,如下所示,使用PVC申请一个SAS(高I/O)类型云硬盘/块存储。 apiVersion: v1 kind: PersistentVolumeClaim
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针
如何驱逐节点上的所有Pod? 您可使用kubectl drain命令从节点安全地逐出所有Pod。 默认情况下,kubectl drain命令会保留某些系统级Pod不被驱逐,例如everest-csi-driver。 使用kubectl连接集群。 查看集群中的节点。 kubectl
节点磁盘挂载 应用现状 在自规划磁盘、创建条带逻辑盘等使用场景下,如何在创建节点时,灵活的挂载和划分磁盘成为一个问题。 节点创建中storage字段通过磁盘的大小、磁盘类型等参数的匹配来选择数据盘,避免了盘符匹配失败导致的节点创建、重置、迁移、纳管失败问题(例如当创建节点时NodeExtendParam