检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当达到软驱逐阈值时,允许Pod优雅终止的时间,即软驱逐宽限期,软驱逐信号与驱逐处理之间的时间差。默认为90秒。 eviction-max-pod-grace-period:最大驱逐pod宽限期,停止信号与kill之间的时间差。 硬驱逐条件:硬驱逐机制则简单得多,一旦达到阈值,直接把Pod从本地驱逐。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment
云存储类型可选择“云硬盘EVS”或“文件存储SFS”,若没有云存储可单击“创建存储卷声明”创建。 如选择“云硬盘EVS”类型,要求EVS的可用区与节点可用区一致。 图2 添加云存储 给Jenkins容器添加权限,让Jenkins容器中可以执行相关命令。 确认3中已开启“特权容器”开关。
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
通过数据复制服务DRS将本地数据库迁移至云数据库RDS,则在迁移后需重新配置数据库的访问,请您根据实际情况进行配置。 若云数据库RDS实例与CCE集群处于同一VPC下,则可通过内网地址访问,否则只能通过绑定EIP的方式进行公网访问。建议使用内网访问方式,安全性高,并且可实现RDS的较好性能。
如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0 -- sh 命令中变量可根据实际情况进行替换:
参数说明 示例 权重 仅支持在“尽量满足”策略中添加。权重的取值范围为1-100,调度器在进行调度时会将该权重视为一个附加的评分项,并将其与节点的其他优先级函数评分相加。最终,调度器会将Pod调度到总分最大的节点上。 - 标签名 设置节点亲和性时,填写需要匹配的节点标签。 该标签
Gauge MB 表示帧缓存剩余数,帧缓存一般被称为显存 DCGM_FI_DEV_FB_USED Gauge MB 表示帧缓存已使用数,该值与nvidia-smi命令中memory-usage的已使用值对应 表3 温度及功率指标 指标名称 指标类型 单位 说明 DCGM_FI_DEV_GPU_TEMP
}, { "name": "nodeCSIscheduling" }, {
U显存隔离,可以和显存隔离模式的工作负载共用一张GPU卡,但不支持和算显隔离模式负载共用一张GPU卡。同时,还需遵循GPU虚拟化的其他约束与限制。 未开启该兼容能力时,在工作负载中声明nvidia.com/gpu配额仅影响调度结果,并不会有显存隔离的限制。即虽然配置nvidia.com/gpu为0
是 String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr
tl连接到集群,详情请参见通过kubectl连接集群。 您已经创建好一个状态可用的SFS Turbo,并且SFS Turbo与集群在同一个VPC内。 约束与限制 支持多个PV挂载同一个SFS或SFS Turbo,但有如下限制: 多个不同的PVC/PV使用同一个底层SFS或SFS
nt的组件,用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于集群节点,ICAgent会自动安装,您不用手动安装ICAgent。详情请参见安装ICAgent(华为云主机)。 父主题: 监控中心
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create
在CCE集群中使用镜像服务的安全配置建议 容器镜像是防御外部攻击的第一道防线,对保障应用程序、系统乃至整个供应链的安全至关重要。不安全的镜像容易成为攻击者的突破口,导致容器逃逸到宿主机。一旦容器逃逸发生,攻击者便能访问宿主机的敏感数据,甚至利用宿主机作为跳板,进一步控制整个集群或
GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这个漏洞,通过在容器中创建特殊的字符设备文件后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳
请参见通过kubectl连接集群。 如需使用本地临时卷,您需要将一块节点数据盘导入本地临时卷存储池,详情请参见在存储池中导入临时卷。 约束与限制 本地临时卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=1.2.29。 请勿在节点上手动删除对应的
创建一个有1个节点的集群,节点规格为2U4G及以上,并在创建节点时为节点添加弹性公网IP,以便从外部访问。如创建节点时未绑定弹性公网IP,您也可以前往ECS控制台为该节点进行手动绑定。 给集群安装插件。 autoscaler:节点伸缩插件。 metrics-server:是Kubernetes