检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在CCE集群上部署Volcano环境。 单击左侧栏目树中的“插件管理”,单击Volcano插件下方的“安装”,在安装插件页面中选择插件的规格配置,并单击“安装”。 部署Mnist示例。 下载kubeflow/examples到本地并根据环境选择指南,命令如下: yum install
安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据CCE推荐的预置值设置插件规格,可满足大多数场景,具体数值请以控制台显示为准。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 副本数:副本数为1时插件不具备高
的视图,使其只能访问特定的资源集合,如文件系统、网络、进程和用户等。而Cgroup作为Linux内核的资源管理机制,能够限制进程对CPU、内存、磁盘和网络等资源的使用,防止单一进程过度占用资源,影响系统的整体性能。 尽管Namespace和Cgroup从资源层面上实现了容器与宿主
传输文件总量很大的话,会消耗很多资源,目前proxy分配内存128M,在压测场景下,损耗非常大,最终导致请求失败。 目前压测所有流量都经过Proxy,业务量大就要加大分配资源。 解决方法 传文件涉及大量报文复制,会占用内存,建议把Proxy内存根据实际场景调高后再进行访问和上传。 可以考虑
点扩缩容时,在节点池中根据最小浪费规则挑选合适规格的节点扩缩容。 节点数范围:修改节点数范围,弹性伸缩时节点池下的节点数量会始终介于节点数范围内。 冷却时间:当前节点池扩容出的节点多长时间不能被缩容。 规格选择:对节点池中的节点规格单独设置是否开启弹性伸缩。 设置完成后,单击“确定”。
实例CPU、内存使用率。 如实例已达性能瓶颈,则需调整CoreDNS插件规格。 单击CoreDNS插件的“编辑”按钮,进入插件详情页。 在“规格配置”下配置CoreDNS参数规格。您可以根据业务需求选择CoreDNS所能提供的域名解析QPS。 您也可以选择自定义规格,通过选择不同
和性”和“反亲和性”,应用升级或者重启后,会概率出现服务无法访问的问题。 亲和性/反亲和性调度策略概述 反例: 应用A设置对节点1、节点2亲和性,节点3、节点4反亲和性,应用A通过ELB发布Service,ELB监听节点1和节点2上面。对应用A进行升级,会概率出现应用A被调度到节
这些也是和业务直接相关。 使用云服务 云容器引擎CCE:提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。 弹性云服务器ECS:一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用
检查历史升级记录是否满足升级条件 检查项内容 检查集群的历史升级记录,要求您的集群原始版本满足升级到目标集群版本的条件。 解决方案 该问题一般由于您的集群从比较老的版本升级而来,升级风险较大,建议您优先考虑集群迁移 若您仍然想要升级该集群,请您提交工单,联系技术支持人员进行评估。
Limits占集群CPU容量的百分比。 内存使用率 百分比 集群中所有容器的内存使用量总和占所有容器设置的Limit总和的百分比。 内存Request水位 百分比 集群整体内存Requests占集群内存容量的百分比。 内存Limit水位 百分比 集群整体内存Limits占集群内存容量的百分比。 Pod数
通过Core Dump文件定位容器问题 应用场景 Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core
Throttled):负载的所有Pod的容器在不同的时间段的CPU受限时间所占的平均比例。 内存相关指标 内存使用率:负载的所有Pod的容器在不同的时间段使用的内存总量占负载的所有Pod的容器的内存Limit总量比例。 网络相关指标 网络总流出速率:负载的所有Pod的容器在不同的时间段的每秒钟发送的总字节数。
据可视化能力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。
CPU核数:扩容时,集群下所有节点CPU核数之和的上限,超过该值时将不再扩容。默认不限。 内存(GiB):扩容时,集群下所有节点内存之和的上限,超过该值时将不再扩容。默认不限。 统计节点、CPU和内存总数时,包含自定义节点池的不可用节点,但是不包含默认节点池中的不可用节点。 节点池扩容优先级
包周期节点:退订节点/移除节点 升级方式 集群升级到v1.21.11-r0、v1.23.9-r0、v1.25.4-r0及以上版本即可支持。 按需节点池升级至新节点池:无需操作,自动继承新节点池的全量功能。 包年/包月节点池升级至新节点池:在扩缩容节点数时触发,确认升级后将无损切换到新节点池
数。 节点CPU单核使用率:节点上每个CPU核非空闲时间各自所占的比例。 内存相关指标 内存使用率:节点的内存使用量除以节点的内存总量。 内存分配率:节点上所有容器对内存的 Request 之和占节点的内存总量的比例。 网络相关指标 网络流出速率:节点上的物理网卡在不同的时间段的每秒钟发送的字节数。
告警中心概述 云原生告警是可观测性体系里面比较重要的一环。在云原生告警中,除了传统的CPU、内存等资源使用量的告警以外,还有容器重启等事件告警、应用访问失败等自定义的监控指标告警。 CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
升级前须知 升级前,您可以在CCE控制台确认您的集群是否可以进行升级操作。确认方法请参见升级集群的流程和方法。 注意事项 升级集群前,您需要知晓以下事项: 请务必慎重并选择合适的时间段进行升级,以减少升级对您的业务带来的影响。 集群升级前,请参考Kubernetes版本发布说明了
应用场景 电商客户遇到促销、限时抢购等活动期间,访问量激增,需及时、自动扩展云计算资源。 视频直播客户业务负载变化难以预测,需要根据CPU/内存使用率进行实时扩缩容。 游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根据用户的业务需求