检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。
CCE AI套件(NVIDIA GPU)版本发布记录 表1 CCE AI套件(NVIDIA GPU)版本记录 插件版本 支持的集群版本 更新特性 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
CCE AI套件(Ascend NPU)版本发布记录 表1 CCE AI套件(Ascend NPU)插件版本记录 插件版本 支持的集群版本 更新特性 2.1.23 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 2.1.22 v1.21
本例中,将应用设置为“通过弹性公网IP的方式”被外部互联网访问。 Service名称:输入应用发布的可被外部访问的名称,设置为:apptest。 访问类型:选择“节点访问”。
nginx template: metadata: labels: app: nginx spec: containers: - name: container-0 image: 'nginx
Failed to pull image "IP地址:端口号/magicdoom/tidb-operator:latest": rpc error: code = Unknown desc = Error response from daemon: Get https://IP地址
app: balancer-test spec: containers: - image: nginx:latest imagePullPolicy: IfNotPresent name: container
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。
执行stat /run/containerd/containerd.sock命令,若发现存在该文件则会导致docker启动失败。 执行rm -rf /run/containerd/containerd.sock命令,然后重新进行集群升级检查。 父主题: 升级前检查异常问题排查
app: nginx version: v1 template: metadata: labels: app: nginx version: v1 spec: containers
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。
建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
基础概念 云容器引擎(CCE) 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器,提供了Kubernetes集群管理、容器应用全生命周期管理、应用服务网格、Helm应用模板、插件管理
相关链接 containerd-shim API exposed to host network containers 父主题: 漏洞公告
containerd容器进程权限提升漏洞公告(CVE-2022-24769) 漏洞详情 containerd开源社区中披露了一个安全漏洞,在containerd创建容器的场景,非root容器进程的初始inheritalbe capability不为空,可能会造成在execve执行可执行文件时提升到允许的
创建应用test-app和对应Service。 创建test-app.yaml文件。
如果CCE AI套件(NVIDIA GPU)插件版本大于等于2.0.0,请登录GPU节点执行以下命令: nvidia-container-runtime --version 若显示无此命令,则不涉及该漏洞。
例如给此类应用配置Pod间反亲和,或减少单节点的Pod数量上限。 考虑单独挂盘,如用户创建节点时挂载额外用户数据盘或应用动态挂载存储等等,然后将业务日志输出到额外挂载盘中的文件。 父主题: 节点运行
APM1.0探针 监控组:输入监控组名称,如testapp。 探针版本:选择探针的版本。 “探针升级策略”,默认为“重启自动升级”。 重启自动升级:每次都尝试重新下载镜像。 重启手动升级:如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像。