搜索_华为云

GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

GPU节点使用nvidia驱动启动容器排查思路集群中的节点是否有资源调度失败的事件？问题现象：节点运行正常且有GPU资源，但报如下失败信息： 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路：确认节点标签是否已经打上

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056）漏洞详情 NVIDIA公布了关于NVIDIA GPU驱动的一个漏洞CVE-2021-1056，该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
使用Spark on CCE - 云容器引擎 CCE

使用spark-submit提交Spark应用程序的工作原理如下：创建一个Pod，用于运行Spark的驱动程序。驱动程序在集群中创建执行程序的Pod并与其建立连接，用于执行应用程序代码。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Spark
选择GPU节点驱动版本 - 云容器引擎 CCE

如何选择GPU节点驱动版本一般情况下，使用GPU资源时您将会使用以下软件包，并且软件包版本需要保持配套：驱动GPU工作的硬件驱动程序，如Tesla系列驱动。上层应用程序所需要的库，如CUDA Toolkit工具包。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

true：关闭GPU的GSP firmware driver_mount_paths 否 String 自动挂载到GPU容器里的路径默认值："bin,lib64" enable_fault_isolation 否 Bool 默认值：true true：插件识别GPU硬件故障或驱动程序问题

 帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

由于GPU厂商的驱动程序，本身就会占用一定量的物理显存，量级在300MB左右，这属于正常现象。例如Tesla T4配套510.47.03，驱动程序默认会占用280MiB；而该显存占用与厂商的驱动程序版本也有一定相关性，例如535系列驱动比470系列占用更多。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
云原生网络2.0模型说明 - 云容器引擎 CCE

云原生网络2.0模型说明云原生网络2.0模型云原生网络2.0是自研的新一代容器网络模型，深度整合了虚拟私有云VPC的弹性网卡（Elastic Network Interface，简称ENI）和辅助弹性网卡（Sub Network Interface，简称Sub-ENI）的能力，

帮助中心 > 云容器引擎 CCE > 用户指南 > 网络 > 容器网络 > 云原生网络2.0模型
容器网络 - 云容器引擎 CCE
容器网络 - 云容器引擎 CCE

Underlay模式是借助驱动程序将节点的底层网络接口直接暴露给容器使用的一种网络构建技术，享有较高的性能，较为常见的解决方案有IP VLAN等。

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Kubernetes网络
Kubernetes 1.27版本说明 - 云容器引擎 CCE

支持在挂载时将Pod fsGroup传递给CSI驱动程序将fsGroup委托给CSI驱动程序管理首先在Kubernetes 1.22中作为Alpha特性引入，并在Kubernetes 1.25中进阶至Beta状态。

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 集群版本发布记录 > Kubernetes版本发布记录
Kubernetes 1.27版本说明 - 云容器引擎 CCE

支持在挂载时将Pod fsGroup传递给CSI驱动程序将fsGroup委托给CSI驱动程序管理首先在Kubernetes 1.22中作为Alpha特性引入，并在Kubernetes 1.25中进阶至Beta状态。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 集群概述 > Kubernetes版本发布记录
在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

在CCE集群中部署使用Tensorflow 资源准备购买CCE集群，购买GPU节点并使用gpu-beta插件安装显卡驱动。在集群下添加一个对象存储卷。数据预置从https://github.com/zalandoresearch/fashion-mnist下载数据。获取tensorflow

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

可能需要相应地更新CSI驱动程序，以正确创建和处理目标路径。 kube-proxy --healthz-port和--metrics-port参数不建议使用，请使用--healthz-bind-address和--metrics-bind-address。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 集群概述 > Kubernetes版本发布记录
（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

可能需要相应地更新CSI驱动程序，以正确创建和处理目标路径。 kube-proxy --healthz-port和--metrics-port参数不建议使用，请使用--healthz-bind-address和--metrics-bind-address。

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 集群版本发布记录 > Kubernetes版本发布记录
工作负载异常：实例驱逐异常（Evicted） - 云容器引擎 CCE

工作负载异常：实例驱逐异常（Evicted）驱逐原理当节点出现异常时，为了保证工作负载的可用性，Kubernetes会通过驱逐机制（Eviction）将该节点上的Pod调离异常节点。目前Kubernetes中存在两种Eviction机制，分别由kube-controller-manager

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
使用Kubernetes默认GPU调度 - 云容器引擎 CCE

使用Kubernetes默认GPU调度 CCE支持在容器中使用GPU资源。前提条件创建GPU类型节点，具体请参见创建节点。集群中需要安装GPU插件，且安装时注意要选择节点上GPU型号对应的驱动，具体请参见CCE AI套件（NVIDIA GPU）。在v1.27及以下的集群中使用默认

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
Helm v2与Helm v3的差异及适配方案 - 云容器引擎 CCE

详情及示例请见Helm官方文档：https://v3.helm.sh/docs/faq/changes_since_helm2 默认存储驱动程序更改为secrets Helm v2 默认情况下使用 ConfigMaps 存储发行信息，而在 Helm v3 中默认使用 Secrets

帮助中心 > 云容器引擎 CCE > 用户指南 > 模板（Helm Chart）
自定义StorageClass - 云容器引擎 CCE

自定义StorageClass 应用现状 CCE中使用存储时，最常见的方法是创建PVC时通过指定StorageClassName定义要创建存储的类型，如下所示，使用PVC申请一个SAS（高I/O）类型云硬盘/块存储。 apiVersion: v1 kind: PersistentVolumeClaim

帮助中心 > 云容器引擎 CCE > 最佳实践 > 存储
设置容器健康检查 - 云容器引擎 CCE

设置容器健康检查操作场景健康检查是指容器运行过程中，根据用户需要，定时检查容器健康状况。若不配置健康检查，如果容器内应用程序异常，Pod将无法感知，也不会自动重启去恢复。最终导致虽然Pod状态显示正常，但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
如何驱逐节点上的所有Pod？ - 云容器引擎 CCE

如何驱逐节点上的所有Pod？您可使用kubectl drain命令从节点安全地逐出所有Pod。默认情况下，kubectl drain命令会保留某些系统级Pod不被驱逐，例如everest-csi-driver。使用kubectl连接集群。查看集群中的节点。 kubectl

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
节点磁盘挂载 - 云容器引擎 CCE

节点磁盘挂载应用现状在自规划磁盘、创建条带逻辑盘等使用场景下，如何在创建节点时，灵活的挂载和划分磁盘成为一个问题。节点创建中storage字段通过磁盘的大小、磁盘类型等参数的匹配来选择数据盘，避免了盘符匹配失败导致的节点创建、重置、迁移、纳管失败问题（例如当创建节点时NodeExtendParam

帮助中心 > 云容器引擎 CCE > API参考 > 附录

总条数： 635

上一页
1
2
3
4
5
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

使用Spark on CCE - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

云原生网络2.0模型说明 - 云容器引擎 CCE

容器网络 - 云容器引擎 CCE

Kubernetes 1.27版本说明 - 云容器引擎 CCE

Kubernetes 1.27版本说明 - 云容器引擎 CCE

在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

工作负载异常：实例驱逐异常（Evicted） - 云容器引擎 CCE

使用Kubernetes默认GPU调度 - 云容器引擎 CCE

Helm v2与Helm v3的差异及适配方案 - 云容器引擎 CCE

自定义StorageClass - 云容器引擎 CCE

设置容器健康检查 - 云容器引擎 CCE

如何驱逐节点上的所有Pod？ - 云容器引擎 CCE

节点磁盘挂载 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线