检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
s事件中出现“Liveness probe failed: Get http…”时,表示健康检查失败。 解决方案: 请在工作负载详情页中,切换至“容器管理”页签,核查容器的“健康检查”配置信息,排查健康检查策略是否合理或业务是否已异常。 排查项三:容器所在磁盘空间不足 如下磁盘为
标准存储:访问时延低和吞吐量高,因而适用于有大量热点文件(平均一个月多次)或小文件(小于1MB),且需要频繁访问数据的业务场景,例如:大数据、移动应用、热点视频、社交图片等场景。 低频访问存储:适用于不频繁访问(平均一年少于12次)但在需要时也要求快速访问数据的业务场景,例如:文件同步/共享、企业备份等场景
nlyMany)的各种工作负载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 对象存储规格 对象存储提供了多种存储类别,从而满足客户业务对存储性能、成本的不同诉求。
/home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU
运行中的Pod无法进行在线和离线业务转换,如需转换需要重建Pod。 当节点设置cpu-manager-policy为静态绑核时,不允许将离线Pod设置为Guaranteed的Pod,若需要绑核则需要调整Pod为在线Pod,否则可能会发生离线Pod占用在线Pod的CPU导致在线Pod启动失败
Ingress的方法。 关于CCE v1.23集群中Ingress API版本升级的说明 CCE从v1.23版本集群开始,将Ingress切换到networking.k8s.io/v1版本。 v1版本的参数相较v1beta1版本的参数有如下区别: ingress类型由annotations中kubernetes
集群一旦创建以后,不支持变更以下项: 变更集群类型。 变更集群的控制节点数量。 变更控制节点可用区。 变更集群的网络配置,如所在的虚拟私有云VPC、子网、服务网段、IPv6、kube-proxy代理模式(即服务转发模式)。 变更网络模型,例如“容器隧道网络”更换为“VPC网络”。 步骤一:登录CCE控制台
Limit值的弹性限流机制,以降低业务长尾响应时间,可以有效提升时延敏感型业务的服务质量。 CPU Burst弹性限流 出口网络带宽保障 平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽。 出口网络带宽保障 父主题: 调度
单集群视角的成本洞察 集群维度 集群维度是单集群视角成本洞察的总览界面,涵盖了命名空间、工作负载、节点池等维度的成本开销和资源消耗情况,帮助运维人员识别成本开销大、资源利用率低的应用。 您可以在右上角进行时间过滤。 图2 单集群视角的成本总览 名称 含义 本月至今成本 环比上月 本月至今:
网络优先级限制 CCE Turbo集群支持在离线Pod的网络优先级限制,以实现出口网络带宽保障,可平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽,在线业务触发阈值时,压缩离线业务带宽使用。 商用 7 CCE Turbo集群支持命名空间关联容器网段 CCE
务器进行处理。开启会话保持后,负载均衡会把来自同一客户端的访问请求持续分发到同一台后端云服务器上进行处理。 例如在大多数需要用户身份认证的在线系统中,一个用户需要与服务器实现多次交互才能完成一次会话。由于多次交互过程中存在连续性,如果不配置会话保持,负载均衡可能会将部分请求分配至
StatefulSets 资源。 prometheus-kube-state-metrics:将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。 custom-metrics-apiserver:将自定义指标聚合到原生的kubernetes apiserver。
(停止维护)Kubernetes 1.13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点
(停止维护)Kubernetes 1.13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点
用Agent进行构建,具体操作步骤请参见修改并发构建数量。 设置集群访问凭证 在Jenkins中能够识别的证书文件为PKCS#12 certificate,因此需要先将集群证书转换生成PKCS#12格式的pfx证书文件。 前往CCE控制台的“总览 > 连接信息”页面中下载集群证书,证书包含ca
支持选择天、周、月或年的具体时间点或周期作为触发时间 根据CPU、内存历史使用情况自动计算建议值,并调整Pod资源申请量。 根据业务历史指标,识别工作负载弹性周期并对未来波动进行预测,提前进行扩缩容动作,解决原生HPA的滞后问题。 使用方式 创建HPA策略 创建CronHPA定时策略
25 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.25.0 1.25.21 v1.25 修复autoscaler伸缩策略least-waste默认未启用的问题 修复节点池扩容失败后无法切换到其他节点池扩容且插件有重启动作的问题
业务“潮汐”特性明显,预留资源较多:在线业务具有明显日级别波峰、波谷特性,用户为保证服务的性能和稳定性按照波峰申请资源,集群的大部分资源处于闲置状态。 在线和离线作业分布不同集群,资源无法分时复用:用户为在线和离线作业划分不同的K8s集群中,在线业务在波谷时,无法部署离线作业使用这部分资源。
级高的业务SLO。 资源分级管控为业务潮汐明显的在线业务间混部、在线和离线业务混部奠定了基础。解决了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮
25 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.25.0 1.25.21 v1.25 修复autoscaler伸缩策略least-waste默认未启用的问题 修复节点池扩容失败后无法切换到其他节点池扩容且插件有重启动作的问题