检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
5-r0及以上补丁版本或1.25版本。 请确保云日志服务LTS资源配额充足,LTS的默认配额请参见基础资源。 集群控制面组件说明 当前CCE支持收集以下三种类型的控制面日志,每个日志流对应一个Kubernetes控制层面组件。关于这些组件的更多信息,请参见Kubernetes组件。 表1 集群控制面组件说明
NVIDIA公布了关于NVIDIA GPU驱动的一个漏洞CVE-2021-1056,该漏洞是存在于NVIDIA GPU驱动程序中与设备隔离相关的安全漏洞。当容器以非特权模式启动,攻击者利用这个漏洞,通过在容器中创建特殊的字符设备文件后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。
手动续费的操作。 图6 续费管理 所有需手动续费的资源都可归置到“手动续费项”页签,具体操作请参见如何恢复为手动续费。 手动续费资源。 单个续费:在资源页面找到需要续费的资源,单击操作列的“续费”。 图7 单个续费 批量续费:在资源页面勾选需要续费的资源,单击列表左上角的“批量续费”。
/proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱
devmapper-base-size 大于等于0 0 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 当前仅devicemapper场景支持限制,overlayfs不支持 配置建议: 特殊场景诉求配置,通常默认值即可 容器core文件的大小限制 容器core文件的大小限制
响了大规模批创场景下的容器启动速度。系统默认提供了容器网卡动态预热的能力,在尽可能提高IP的资源利用率的前提下,加快Pod的启动速度。集群预热配置为您的集群设置全局的预热策略,集群节点默认会根据集群预热配置选项进行容器网卡的预热。如您期望为一组节点设置独立的预热策略,建议您配置节点池预热。
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
重调度(Descheduler) 集群中的调度是将pending状态的Pod分配到节点运行的过程,在CCE集群之中,Pod的调度依赖于集群中的调度器(kube-scheduler或者Volcano调度器)。调度器是通过一系列算法计算出Pod运行的最佳节点,但是Kubernetes集群环境是存在动态变化的,例如某
当出现以上报错内容时,说明模板Chart.yaml文件中的name和version字段和模板包名称不一致。 如果您需要自定义模板包的名称和版本,需要同步修改Chart.yaml文件中的name和version字段。 解决方案 查看模板Chart.yaml文件中的name和version字段。 例如,
volumeID 文件存储的ID。 获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“文件存储卷”页签下单击PVC的名称,在PVC详情页中复制“PVC UID”后的内容即可。 storage 文件存储的大小。 storageClassName 文件存储支持的读写方式,当前支持nfs-rw、nfs-ro。
targetPort: 9090 #Prometheus的默认端口号,无需更改 selector: #标签选择器可根据Prometheus Server实例的标签进行调整 app.kubernetes.io/name: prometheus
配置项键值导入:将配置项中某个键的值导入作为某个环境变量的值。 变量名称:工作负载中的环境变量名称,可自定义,默认为配置项中选择的键名。 变量/变量引用:选择一个配置项及需要导入的键名,将其对应的值导入为工作负载环境变量。 例如将cce-configmap这个配置项中“SPECIAL_LEVEL”的值“H
否 SFS Turbo的ID。 获取方法:在CCE控制台,单击顶部的“服务列表 > 存储 > 弹性文件服务”,并选择SFS Turbo。在列表中单击对应的极速弹性文件存储名称,在详情页中复制“ID”后的内容即可。 everest.io/path 否 自动创建的子目录,必须为绝对路径。
获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“对象存储卷”页签下单击PVC的名称,在PVC详情页的“PV详情”页签下复制“PV名称”后的内容即可。 storage 存储容量,单位为Gi。此处配置为固定值1Gi。 storageClassName 对象存储支持的存储类型,包括ob
本。其在Pod的status中新增了一个名为PodReadyToStartContainers的Condition,该Condition为true表示Pod的沙箱已就绪,可以开始创建业务容器。该特性使得集群管理员可以更清晰和全面地查看 Pod 沙箱的创建完成和容器的就绪状态,增强
od所在节点或同节点的其他容器中访问ELB的私网IP地址,会出现无法访问的问题。 1.15及以下老版本集群暂不支持该能力。 IPVS网络模式下,对接同一个ELB的Service需保持pass-through设置情况一致。 使用节点级别(Local)的服务亲和的场景下,会自动设置kubernetes
本。其在Pod的status中新增了一个名为PodReadyToStartContainers的Condition,该Condition为true表示Pod的沙箱已就绪,可以开始创建业务容器。该特性使得集群管理员可以更清晰和全面地查看 Pod 沙箱的创建完成和容器的就绪状态,增强
Ingress上。为了保持业务稳定,希望不改变对外提供服务的DNS域名及后端服务器的IP地址。您可以通过在CCE集群上配置ELB Ingress规则,使ELB提供的转发策略与之前一致,然后利用DNS域名解析的权重设置完成流量的迁移。 建议在业务低谷期进行流量的切换。 使用ELB会产生计费信息,具体计费详情请参见计费概述。
CRDs)来部署和管理Prometheus Server,同时监控这些自定义资源事件的变化来做相应的处理,是整个系统的控制中心。 prometheus(Server):Operator根据自定义资源Prometheus类型中定义的内容而部署的Prometheus Server集群,这些自定义资源可以看作是用来管理Prometheus