检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
离。 下列检查项中若未明确指出检查周期,则默认周期为30秒。 表3 系统组件检查 故障检查项 功能 说明 容器网络组件异常 CNIProblem 检查CNI组件(容器网络组件)运行状态 无 容器运行时组件异常 CRIProblem 检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态
CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点? CCE集群节点中安装kubelet的端口主要有哪些? 如何配置Pod使用GPU节点的加速能力?
Worker),使用默认调度器,有可能会出现(a)、(b)、(c)三种情况的任意一种情况,(c)才是最想要的调度结果。因为在(c)中,Ps和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高
Label:组织Pod的利器 为什么需要Label 当资源变得非常多的时候,如何分类管理就非常重要了,Kubernetes提供了一种机制来为资源分类,那就是Label(标签)。Label非常简单,但是却很强大,Kubernetes中几乎所有资源都可以用Label来组织。 Labe
API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。 容量与性能:容量无限制,性能较高(IO读写时延10ms级)。 应用场景:适用于(基于OBS界面、OBS工具、OBS
化诉求。 高性能 全容器化架构设计,任务调度更灵活,执行效率更高。 建议搭配使用 容器镜像服务SWR + 对象存储服务OBS + 虚拟专用网络VPN 图1 DevOps持续交付场景 父主题: 应用场景
特性门控所提供的修复使集群操作员能够恢复到以前的行为,但这种行为将在后续版本中锁定并删除。 RuntimeClass已达到稳定状态。RuntimeClass资源提供了一种机制,用于支持集群中的多个运行时,并将有关该容器运行时的信息公开到控制平面。 kubectl调试已达到测试状态。kubectl调试直接从kubectl提供对常见调试工作流的支持。
特性门控所提供的修复使集群操作员能够恢复到以前的行为,但这种行为将在后续版本中锁定并删除。 RuntimeClass已达到稳定状态。RuntimeClass资源提供了一种机制,用于支持集群中的多个运行时,并将有关该容器运行时的信息公开到控制平面。 kubectl调试已达到测试状态。kubectl调试直接从kubectl提供对常见调试工作流的支持。
业务性能,增大业务长尾响应时延,对于时延敏感型业务的影响尤为明显。 CPU Burst提供了一种可以短暂突破CPU Limit值的弹性限流机制,以降低业务长尾响应时间。其原理是业务在每个CPU调度周期内使用的CPU配额有剩余时,系统对这些CPU配额进行累计,在后续的调度周期内如果需要突破CPU
- 优点:本地化构建,操作简单。 缺点:任务管理和执行都在同一台虚拟机上,安全风险较高。 单Master 容器 - 优点:利用K8s容器调度机制,拥有一定的自愈能力。 缺点:任务管理和执行没有分离,安全风险问题仍未解决。 Master加Agent 虚拟机 虚拟机 优点:任务管理和执行分离,降低了一定的安全风险。
如果在删除集群时选择同步删除节点,将会同步删除节点挂载的系统盘和数据盘,请提前做好数据备份。 在集群非运行状态(例如冻结、不可用状态)时删除集群,会残留存储、网络等关联资源,请妥善处理。 删除按需计费的集群 处于休眠状态的集群无法直接删除,请将集群唤醒后重试。 登录CCE控制台,在左侧导航栏中选择“集群管理”。
了解更多关于如何使用镜像安全扫描功能,以及如何解读和应用扫描结果中的修复建议,请参见镜像安全扫描。 使用镜像签名并配置验签策略 镜像验签是一种安全机制,用于验证容器镜像是否在创建后被篡改过。镜像的创建者可以对其内容进行签名,使用者则可以通过验证这个签名来确认镜像的完整性和来源。 镜像验签
log v1.19及以下版本集群:/var/paas/sys/log/kubernetes/kube-proxy.log yangtse日志(网络) v1.21及以上版本集群:/var/log/cce/yangtse v1.19及以下版本集群:/var/paas/sys/log/yangtse
况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般情况下,即使工作负载未声明使用GPU/NPU资源,调度器也会根据打分机制将工作负载调度到GPU/NPU节点运行,于是可能会出现GPU/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。
适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7.1 1.13.8 v1.15.11 v1.17 修复容器隧道网络下CNI健康检查问题 调整资源配额 0.7.1 1.13.6 v1.15.11 v1.17 修复僵尸进程未被回收的问题 0.7.1 1.13
操作系统镜像发布记录 操作系统版本支持机制 操作系统镜像版本说明 父主题: 产品发布记录
Standard/CCE Turbo 自定义资源是kubernetes 1.17新增的无需改变代码就可以扩展 Kubernetes API 的机制,用来管理自定义对象。 自定义资源类型 自定义资源类型 参数名 取值范围 默认值 是否允许修改 作用范围 kind 无 无 允许 CCE Standard/CCE
(1-2分钟)无法正常显示? 因为当prometheus-server实例重启后,实例指标的uid标签值发生了变化。而由于本地存储了数据的机制,导致prometheus-server实例滚动重启的这段时间里指标重叠,即云原生监控插件上报到AOM的指标同时存在新老prometheu
5%,即升级过程中可能的最大Pod数为13。在该工作负载注解中,指定了Pod延时启动时间为20s,在该时间内保证Pod正常启动后,跨VPC网络可正常访问。 表1 Pod延迟启动annotation配置 注解 默认值 参数说明 取值范围 cni.yangtse.io/readiness-delay-seconds
激活成功后显示如下。 图2 激活成功 给集群所使用资源打标签。 集群所使用资源包括集群Master节点、节点,存储资源(EVS、SFS、OBS等),网络资源(ELB、EIP等)。其中节点会默认添加CCE-Cluster-ID标签。 给集群添加标签。 在CCE控制台进入集群信息页面,在资源标签处给集群打标签。