检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要注意Pod的副本数不要超过节点数量,否则会导致一个节点上调度了多个Pod,Pod启动时端口冲突无法创建。例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。 请避免在同一个
Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Work
CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧
Load Balancer的QPS、网站的实时在线人数等。社区经过思考之后,定义了一套标准的Metrics API,通过聚合API对外提供服务。 metrics.k8s.io: 主要提供Pod和Node的CPU和Memory相关的监控指标。 custom.metrics.k8s.io:
无本地存储的轻量化模式指标数据存储于AOM,您的Grafana等应用需要对接至AOM。该模式集群内资源占用非常低,可以显著节省您的计算和存储成本,AOM服务按照上报的指标量进行计费,其中,基础指标免费,自定义指标按量计费;自定义指标可以按需废弃,您可以仅保留基础免费指标使用AOM。 该模式暂不支持基于自定义普罗语句的HPA。
策略触发时,工作负载实例将在此范围内伸缩。 须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入缩容和扩容的冷却时间,单位为分钟,缩容扩容冷却时间不能小于1分钟。
exporter格式输出,有以下方式获取CCE容器网络扩展指标插件的监控信息: 直接访问CCE容器网络扩展指标插件提供的服务端口10001,形如http://{POD_IP}:10001/metrics 注意,如果在节点上访问插件服务端口,需要放通节点和Pod的安全组限制。 获取的监控信息示例如下: 示例1(IPv4发送公网报文数):
的整体性能。 更多资料请查看社区NUMA亲和性插件指导链接:https://github.com/volcano-sh/volcano/blob/master/docs/design/numa-aware.md 前提条件 已创建一个CCE Standard集群或CCE Turbo
节点上依然存在该污点请您手动进行删除。 约束与限制 安装时请确保集群具有足够的资源。 该插件功能仅支持虚拟机节点,不支持物理机节点和裸金属服务器。 默认节点池不支持弹性扩缩容,详情请参见默认节点池DefaultPool说明。 缩容节点会导致与节点关联的本地持久卷类型的PVC/PV