检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。 DaemonSet nvidia-gpu-device-plugin 为容器提供Nvidia GPU异构算力的Kubernetes设备插件。 DaemonSet nvidia-operator 为集群提供Nvidia GPU节点管理能力。
为什么登录虚拟机VNC界面会间歇性出现Dead loop on virtual device gw_11cbf51a, fix it urgently? 问题现象 VPC网络模式的集群,登录虚拟机出现 Dead loop on virtual device gw_11cbf51a, fix it urgently,如图:
下载镜像缺少层如何解决? 故障现象 在使用containerd容器引擎场景下,拉取镜像到节点时,概率性缺少镜像层,导致工作负载容器创建失败。 问题根因 docker v1.10 之前支持mediaType 为 application/octet-stream 的layer,而co
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
type: LoadBalancer 验证四层会话保持是否开启。 登录ELB控制台找到对应的ELB,并在ELB所在行中单击的对应监听器名称。 查看后端服务器组中,会话保持配置是否开启。 图2 开启四层会话保持 七层会话保持(Ingress) 七层的模式下可以开启基于http cookie和app
Pod共享使用GPU。 使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
epel-release -y # yum clean all 安装yum-util。 # yum install -y yum-utils device-mapper-persistent-data lvm2 设置Docker yum源。 # yum-config-manager --add-repo
存活探针(Liveness Probe) 存活探针 Kubernetes提供了自愈的能力,具体就是能感知到容器崩溃,然后能够重启这个容器。但是有时候例如Java程序内存泄漏了,程序无法正常工作,但是JVM进程却是一直运行的,对于这种应用本身业务出了问题的情况,Kubernetes提供了Liveness
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针:
ELB四层健康检查导致java报错:Connection reset by peer 完整错误信息 java.io.IOException: Connection reset by peer at sun.nio.ch.FileDispatcherImpl.read0(Native
使用说明 标准接口:具备标准Http Restful API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。 容量与性能:容量
度的场景中,通过负载感知和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。关于热点打散重调度能力的使用请参见重调度(Descheduler)。 开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 开启重调度能力,完成负载感知重调度策略配置。插件
迁移工具安装 Velero是开源的 Kubernetes 集群备份、迁移工具,集成了Restic工具对PV数据的备份能力,可以通过Velero工具将原集群中的K8s资源对象(如Deployment、Job、Service、ConfigMap等)和Pod挂载的持久卷数据保存备份上传
dockersys空间,再加上必装插件占用的空间,超出了dockersys剩余的空间大小,极有可能导致镜像拉取失败。 Device Mapper类型 Device Mapper类型节点上的容器引擎和容器镜像空间默认占数据盘空间的90%(建议维持此值),这些容量又分为dockers
替换、节点滚动升级等场景中,业务不需要也不应该感知,所以不会在业务负载中声明节点亲和配置,而需要在集群调度层面,使用软亲和方式,在业务变更时将Pod尽量调度到新的节点池上。 Volcano的目标是在业务负载未配置节点软亲和时,在调度层将业务的Pod软调度到指定节点上。 调度优先级介绍
配置负载感知重调度(LoadAware)时,Volcano调度器需要同时开启负载感知调度;配置CPU和内存资源碎片率整理策略(HighNodeUtilization)时,Volcano调度器需要同时开启binpack调度策略。 配置负载感知重调度策略 配置负载感知重调度(Lo
时,GC将会清空大于5秒的表项。请勿修改。 gc_thresh3:最大可允许的非永久表项数量。如果系统拥有庞大的接口数量,或者直连了大量的设备,应增大此值。 查看参数: sysctl net.ipv4.neigh.default.gc_thresh1 sysctl net.ipv4
务器”。 登录目标节点。 使用lsblk命令查看节点块设备信息。 这里存在两种情况,根据容器存储Rootfs而不同。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。 查看设备的磁盘和分区大小。 # lsblk NAME
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。