检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 未进行授权的用户需要先授权,已授权的用户可忽略本步骤。 在弹出框中单击“确认授权”。 图1 添加授权 在页面中勾选需要采集的日志类型,单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:您可按需开启,开启
为负载均衡类型的Service配置自定义EIP 通过CCE自动创建的带有EIP的ELB,可以通过添加Service的annotation(kubernetes.io/elb.custom-eip-id)完成ELB的EIP的自定义配置。 前提条件 已创建Kubernetes集群,且集群版本满足以下要求:
使用的文件系统的可用inodes数的百分比 imagefs.available,容器运行时存放镜像等资源的文件系统的可用容量的百分比 imagefs.inodesFree,容器运行时存放镜像等资源的文件系统的可用inodes数的百分比 pid.available,留给分配 Pod 使用的可用 PID 数的百分比
Flink是一个用于大规模数据处理的分布式流处理框架和计算引擎,可以处理有界(批处理)和无界(流处理)数据,提供低延迟、高吞吐量的实时数据处理能力,同时支持复杂事件处理和数据分析。在CCE集群中部署Flink,可以帮助您构建高效、可靠且灵活的数据处理系统,支持多样化的业务应用,并充分利用大数据环境中的集群资
第二位小数:预绑定高水位,弹性网卡预绑定的最高比例(最大预绑定弹性网卡数 = ⌊节点的总弹性网卡数 * 预绑定高水位⌋) BMS节点上绑定的弹性网卡数:Pod正在使用的弹性网卡数 + 最小预绑定弹性网卡数 < BMS节点上绑定的弹性网卡数 < Pod正在使用的弹性网卡数 + 最大预绑定弹性网卡数
对外端口:ELB监听器的端口。 高级配置: 获取监听器端口号:开启后可以将ELB实例的监听端口从报文的HTTP头中带到后端云服务器。 获取客户端请求端口号:开启后可以将客户端的源端口从报文的HTTP头中带到后端云服务器。 重写X-Forwarded-Host:开启后将以客户端请求头的Host重
heus的规范。 部署应用并转换指标 在集群中使用该应用镜像部署工作负载,将自动上报自定义监控指标。 配置验证 前往AOM查看自定义指标是否采集成功。 约束与限制 ICAgent兼容Prometheus的监控数据规范,Pod提供的自定义指标必须满足Prometheus的监控数据规
”中找到集群上报的AOM实例,查看上述组件的指标。 图2 查看指标 自建Prometheus采集Master节点组件指标 如果您需要通过Prometheus采集Master节点组件指标,可通过以下指导进行配置。 集群版本需要v1.19及以上。 在集群中需安装自建的Promethe
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
为提供对外访问的工作负载配置Service,ELB Ingress支持的Service类型请参见ELB Ingress支持的Service类型。 约束与限制 更新Ingress时,如果删除超时时间配置,已有监听器的超时时间配置将会保留。 多个Ingress使用同一个ELB实例的同一个对
应用场景 企业应用的流量大小不是每时每刻都一样,有高峰,有低谷,如果每时每刻都要保持能够扛住高峰流量的机器数目,那么成本会很高。通常解决这个问题的办法就是根据流量大小或资源占用率自动调节机器的数量,也就是弹性伸缩。 当使用Pod/容器部署应用时,通常会设置容器的申请/限制值来确定
应用场景 企业应用的流量大小不是每时每刻都一样,有高峰,有低谷,如果每时每刻都要保持能够扛住高峰流量的机器数目,那么成本会很高。通常解决这个问题的办法就是根据流量大小或资源占用率自动调节机器的数量,也就是弹性伸缩。 当使用Pod/容器部署应用时,通常会设置容器的申请/限制值来确定
原生Kubernetes调度器只能基于资源的申请值进行调度,然而Pod的真实资源使用率,往往与其所申请资源的Request/Limit差异很大,这直接导致了集群负载不均的问题: 集群中的部分节点,资源的真实使用率远低于资源申请值的分配率,却没有被调度更多的Pod,这造成了比较大的资源浪费。 集群中的另外一些节点
是否有效依赖于底层存储是否支持。 约束与限制 挂载参数暂不支持安全容器。 对象存储挂载参数 CCE的存储插件everest在挂载对象存储时默认设置了表1和表2的参数,其中表1中的参数不可取消。 表1 默认使用且不可取消的挂载参数 参数 支持的对象存储类型 参数值 描述 use_ino
根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”,您也可以选择“自定义驱动”并填写完整的驱动地址。 插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效,已安装 NPU 驱动的节点会保持
主机路径:HostPath模式,将主机路径挂载到指定的容器路径(挂载路径)。用户可以在节点的主机路径中查看到容器输出在挂载路径中的日志信息。 容器路径:EmptyDir模式,将节点的临时路径挂载到指定的路径(挂载路径)。临时路径中存在的但暂未被采集器上报到AOM的日志数据在Pod实例删除后会消失。
池需要扩容的节点数量。 Simulator: 负责缩容场景下,找到满足缩容条件的节点。 Expander: 负责在扩容场景下,根据用户设置的不同的策略来,从Estimator选出的节点池中,选出一个最佳的选择。当前Expander有多种策略,如表1。 表1 CCE支持的Expander策略
单集群视角的成本洞察 单集群视角的成本洞察是为了帮助成本运维人员深入集群内部,从命名空间、应用、节点池等多个维度分析集群成本开销、资源使用状况,进而提供成本优化的依据。当前支持集群维度和命名空间维度两个视角的成本洞察。 前提条件 已开通成本洞察功能 约束与限制 由于实际账单的获取存在
配置项键值导入:将配置项中某个键的值导入作为某个环境变量的值。 变量名称:工作负载中的环境变量名称,可自定义,默认为配置项中选择的键名。 变量/变量引用:选择一个配置项及需要导入的键名,将其对应的值导入为工作负载环境变量。 例如将cce-configmap这个配置项中“SPECIAL_LEVEL”的值“H
使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM Exporter实现丰富的GPU观测场景,关于DCGM