检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
”,创建一个公网类型负载均衡器。 端口配置: 对外协议:TCP。 服务端口:本例中设置为8080,ELB将会使用该端口创建监听器,提供外部流量访问入口。 容器端口:容器中应用启动监听的端口,nginx镜像请设置为80。如需使用其他应用,该容器端口需和应用对外提供的监听端口一致。 图3
限制业务容器访问管理面的操作步骤如下: 查询容器网段和内网apiserver地址。 在CCE的“集群管理”界面查看集群的容器网段和内网apiserver地址。 设置容器网络流量访问规则。 CCE集群:以root用户登录集群的每一个Node节点,执行以下命令: VPC网络: iptables -I OUTPUT -s
资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮汐现象,但对服务SLA要求较高,如广告业务、电商业务等。 离线作业:往往运行时间短,计算需求大,可容忍较高的时延,如AI/大数据业务。
在弹出框中单击“确认授权”。 图1 添加授权 页面单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:开启后,将创建名为default-stdout的日志策略,并上报所有命名空间下的标准输出到云日志服务(LTS)。 采集Kubernetes事件:开启后,将创建名为default-
挂载依赖的存储驱动,对象存储配置为“huawei.com/fuxiobs”。 storage_class 存储类型,包括STANDARD(标准桶)、STANDARD_IA(低频访问桶)。 region 集群所在的region。 volumeID 对象存储的桶名称。 获取方法:在C
重新分配给其他健康的实例,从而保证服务的连续性。由于无状态负载实例相互独立、可替换的特性,您可以根据实时的业务需求灵活调整实例数量,比如在流量高峰期增加实例数量来分担压力。 本文将使用轻量级的Web服务器NGINX作为示例,在CCE集群中部署无状态工作负载。 操作流程 操作步骤 说明
问Ingress(或其他集群的Service),因为kube-proxy会在ipvs-0的网桥上挂载LB类型的Service地址,ELB的流量会被ipvs-0网桥劫持。建议Ingress和Service(或不同集群的Service)使用不同ELB实例。 请勿将Ingress与使用
不能在集群外使用。 Service Service是用来解决Pod访问问题的。每个Service有一个固定IP地址,Service将访问流量转发给Pod,而且Service可以给这些Pod做负载均衡。 图1 通过Service访问Pod 根据创建Service的类型不同,可分成如下模式:
场景:可以设置真实负载阈值生效方式为硬约束,CPU真实负载阈值和内存真实负载阈值在60~80之间设置。 配置案例2 随着集群状态,工作负载流量与请求的动态变化,节点的利用率也在实时变化,集群有可能会再次出现负载极端不均衡的情况,在业务Pod允许被驱逐重新调度的场景中,通过负载感知
25 v1.27 - 1.3.4 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 支持v1.27集群 默认不再上报标准输出和Kubernetes事件到云日志服务(LTS) 1.3.2 v1.17 v1.19 v1.21 v1.23 v1.25 支持Kubernetes事件上报至AOM
到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker ps –a | grep nvidia 查看日志 docker logs 容器id 业务上报nvidia版本和cuda版本不匹配?
Probe)可以通过检测Pod是否已经就绪,来告知Service是否可以将请求转发到Pod上。当Pod出现问题时,Readiness Probe可以避免新流量继续转发到这个Pod。 apiVersion: v1 kind: Pod metadata: name: tomcat spec:
是“与”关系,但同一个规则块中的值是“或”关系。例如,Method和QueryString两种转发条件都配置时,需要同时满足,才能实现目标流量分发。但如果Method值为GET,POST,即只需要满足Method为GET或POST,且QueryString满足条件即可。 表2 数组结构
在实际生产业务中,建议申请和限制比例为1:1.5左右,对于一些敏感业务建议设置成1:1。如果申请值过小而限制值过大,容易导致节点超分严重。如果遇到业务高峰或流量高峰,容易把节点内存或者CPU耗尽,导致节点不可用的情况发生。 CPU配额:CPU资源单位为核,可以通过数量或带单位后缀(m)的整数表达,例如数量表达式0
行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessProbe,用于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服务。这时候程序进程已启动,但是并不能对
CCE节点上监听的端口列表 GPU节点使用nvidia驱动启动容器排查思路 CCE节点NTP时间不同步如何解决? Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高 为什么kubectl top命令查看节点内存使用超过100%? CCE节点事件中一直出现“镜像回收失败”告警如何解决?
10Gi 表1 关键参数说明 参数 描述 volume.beta.kubernetes.io/storage-class 文件存储类型,当前支持标准文件协议类型(nfs-rw)。 name 创建的PVC名称。 accessModes 只支持ReadWriteMany,不支持ReadWriteOnce。
bandwidth 允许 CCE Standard/CCE Turbo 公网带宽的付费模式:bandwidth为按带宽计费;traffic为按流量计费。 公网带宽大小 公网独享型负载均衡器公网带宽的大小 参数名 取值范围 默认值 是否允许修改 作用范围 bandwidth_size 1Mbit/s~2000Mbit/s
不建议在VPC路由表中将ER的路由配置为默认路由网段0.0.0.0/0,如果VPC内的ECS绑定了EIP,会在ECS内增加默认网段的策略路由,并且优先级高于ER路由,此时会导致流量转发至EIP,无法抵达ER。 开启 描述 该连接的描述信息,支持修改。 - 标签 为连接绑定标签,用来标识资源,支持修改。 “标签键”:test
U监控数据如需上报AOM服务,请在云原生监控插件中开启“上报至AOM服务”开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE AI套件(NVIDIA GPU)。 步骤二:采集DCGM指标信息