检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
无法删除。查看命名空间yaml配置,status中有报错“DiscoveryFailed”,示例如下: 上图中报错信息为:Discovery failed for some groups, 1 failing: unable to retrieve the complete list
kind: Pod metadata: name: nginx spec: containers: - image: nginx:alpine name: container-0 resources: limits: cpu:
远程镜像仓库使用非知名或不安全的证书 Failed to pull image "XXX": rpc error: code = Unknown desc = context canceled 镜像体积过大。 排查项六: 镜像过大导致失败 Failed to pull image "docker.io/bitnami/nginx:1
些为运行时准备的配置参数(如匿名卷、环境变量、用户等)。镜像不包含任何动态数据,其内容在构建之后也不会被改变。 容器:镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的类和实例一样,镜像是静态的定义,容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。
Apache containerd安全漏洞公告(CVE-2020-15257) 漏洞详情 CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件,它处理
迁移的影响,以最大限度避免可能存在的风险。 Containerd不具备镜像构建功能,请勿在Containerd节点上使用Docker Build功能构建镜像。Docker和Containerd其他差异请参考容器引擎说明。 默认节点池中的节点迁移步骤 登录CCE控制台,单击集群名称进入集群。
4.1-98版本的containerd作为kuberentes CRI运行时。 2. CCE集群containerd版本低于1.5.11以下的集群。 判断方法 在node节点上使用root用户执行containerd --version查看containerd版本。 新Conso
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
用的资源进行调度,确保关键业务的资源优先级得到保障。 业务优先级保障调度 AI任务性能增强调度 根据AI任务的工作性质、资源的使用情况,设置对应的调度策略,可以增强集群业务的吞吐量,提高业务运行性能。 AI任务性能增强调度 NUMA亲和性调度 Volcano可解决调度程序NUMA拓扑感知的限制,实现以下目标:
0,则不涉及该漏洞。 CCE AI套件(NVIDIA GPU)插件老版本命名为:gpu-beta、gpu-device-plugin。 如果CCE AI套件(NVIDIA GPU)插件版本大于等于2.0.0,请登录GPU节点执行以下命令: nvidia-container-runtime
使用Init容器初始化应用 概念 Init Containers,即初始化容器,顾名思义容器启动的时候,会先启动可一个或多个容器,如果有多个,那么这几个Init Container按照定义的顺序依次执行,只有所有的Init Container执行完后,主容器才会启动。由于一个Pod里的存储卷是共享的,所以Init
version: v1 spec: containers: - image: {your_repository}/nginx:v1 # 容器使用的镜像为:nginx:v1 name: container-0 resources:
isRollbackable为true),且插件实例状态为running(运行中)、available(可用)、abnormal(不可用)、upgradeFailed(升级失败)、rollbackFailed(回滚失败)时支持回滚。 调用方法 请参见如何调用API。 URI POST
app: nginx spec: containers: - name: container-1 image: 'nginx' imagePullPolicy: IfNotPresent
除运维人员以外,其他人员(例如数据科学家、AI算法工程师等)也能通过相关监控指标了解业务的GPU使用情况,以便进行容量规划和任务调度。 新一代NVIDIA支持使用数据中心GPU管理器(DCGM)来管理大规模集群中的GPU。CCE AI套件(NVIDIA GPU)插件(版本2.7
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain a resource that
containerd镜像Volume非安全处理漏洞公告(CVE-2022-23648) 漏洞详情 containerd开源社区中披露了一个漏洞,如果镜像具有恶意的属性,在容器内的进程可能会访问主机上任意文件和目录的只读副本,从而造成宿主机上敏感信息泄露。 表1 漏洞信息 漏洞类型
故障现象 在使用containerd容器引擎场景下,拉取镜像到节点时,概率性缺少镜像层,导致工作负载容器创建失败。 问题根因 docker v1.10 之前支持mediaType 为 application/octet-stream 的layer,而containerd不支持appl
app: nginx spec: containers: - name: container-1 image: nginx:latest imagePullPolicy: IfNotPresent
迁移至Containerd,详情请参见将节点容器引擎从Docker迁移到Containerd。 表1 容器引擎对比 对比 Containerd Docker 调用链 kubelet --> CRI plugin(在containerd进程中) --> containerd Docker(Kubernetes