Container配置 容器名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 无 无 允许 - 镜像名称 参数名 取值范围 默认值 是否允许修改 作用范围 image 无 无 允许 - 更新策略 参数名 取值范围 默认值 是否允许修改 作用范围 imagePullPolicy
LeaderWorkerSet插件 大规模语言模型(LLM)推理采用多节点、多GPU的分布式计算架构,通过Tensor Parallelism跨GPU切分模型参数,结合Pipeline Parallelism跨节点分配计算阶段,实现多设备协同推理。传统的Kubernetes的Deployment
Kuberay 插件简介 Kuberay是一个Kubernetes原生插件,用于在Kubernetes集群(包括CCE Standard/Turbo集群)上管理和运行Ray分布式计算框架。Ray是一个高性能的分布式计算库,常用于机器学习、强化学习和数据处理等场景。Kuberay的目标是将
containerd镜像Volume非安全处理漏洞公告(CVE-2022-23648) 漏洞详情 containerd开源社区中披露了一个漏洞,如果镜像具有恶意的属性,在容器内的进程可能会访问主机上任意文件和目录的只读副本,从而造成宿主机上敏感信息泄露。 表1 漏洞信息 漏洞类型
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下
AI负载调度 本文主要介绍Volcano调度器在AI负载调度方面的关键功能,包括弹性调度、任务调度、异构资源调度和任务队列调度。Volcano调度器提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,旨在提升AI负载的调度效率和运行性能。 弹性调度 Volcano
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点
将节点容器引擎从Docker迁移到Containerd Kubernetes社区已经在v1.24版本中移除Dockershim,因此建议您将节点容器引擎从Docker逐步迁移至官方推荐的Containerd,以确保未来与Kubernetes版本的兼容性和持续支持。 前提条件 已创建至少一个集群
AI数据加速 Fluid数据加速引擎概述 AI数据加速引擎插件 父主题: 云原生AI
NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) NVIDIA Container Toolkit 是一个由 NVIDIA 提供的开源工具包,它允许您在容器化环境中利用 NVIDIA GPU 进行加速计算。工具包包括一个容器运行时库和实用程序
containerd容器进程权限提升漏洞公告(CVE-2022-24769) 漏洞详情 containerd开源社区中披露了一个安全漏洞,在containerd创建容器的场景,非root容器进程的初始inheritalbe capability不为空,可能会造成在execve执行可执行文件时提升到允许的
AI任务管理 Kubeflow插件 Kuberay 父主题: 云原生AI
Apache containerd安全漏洞公告(CVE-2020-15257) 漏洞详情 CVE-2020-15257是containerd官方发布的一处Docker容器逃逸漏洞。containerd是一个支持Docker和常见Kubernetes配置的容器运行时管理组件,它处理与容器化有关的抽象
云原生AI 云原生AI套件概述 AI负载调度 AI任务管理 AI数据加速 AI服务部署
CCE AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关指标能够了解整个集群的GPU使用情况、健康状态、工作负载性能等,从而实现对异常问题的快速诊断、
云原生AI插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
AI推理网关插件 随着大规模语言模型(LLM)及人工智能(AI)推理服务的迅猛发展,云原生AI团队面临着愈加复杂的推理流量治理难题。在AI推理应用场景中,除了传统的基于HTTP路径和协议的流量路由外,还需根据“模型名称”、“推理优先级”以及“模型版本”等AI业务属性,灵活地进行流量分发与灰度发布
AI推理框架插件 插件简介 AI推理框架插件是一款面向AI模型全生命周期管理的云原生插件,支持用户通过声明式API自定义注册、部署及调度AI大模型,并高效执行推理任务。 该特性当前正处于上线阶段,已发布区域请以控制台实际为准。 前提条件 已创建v1.28及以上版本的CCE Standard
AI数据加速引擎插件 在处理AI和大数据任务时,Kubernetes面临计算存储分离导致的高延迟和带宽浪费、数据管理不足、存储接口碎片化,以及缺乏智能数据感知与调度等核心挑战。为此,CCE Standard/Turbo集群基于Fluid提供AI数据加速引擎插件。该插件提供数据集抽象
AI服务部署 AI推理框架插件 AI推理网关插件 LeaderWorkerSet插件 kagent插件 父主题: 云原生AI
您即将访问非华为云网站,请注意账号财产安全