检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ash空间,在增删节点时仅需要将路由的目标按顺时针原则向下迁移,而其他路由无需改变,可以尽可能地减少重新路由,有效解决动态增删节点带来的负载均衡问题。 通过配置一致性哈希规则,在增加一台服务器时,新的服务器会尽量分担其他所有服务器的压力;同样,在减少一台服务器时,其他所有服务器也
事件”页面进行展示。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“事件”页签。 事件页面分为两个页签:“概览”和“事件”。在“概览”页签中,您可以查看集群中事件的总数、趋势和排序信息;在“事件”中,可以查看事件的详细信息,包括事件名称、类型、内容,以及触发该事件的资源的相关信息等。
点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已经不存在,请登录CCE控制台,在左侧导航栏中单击“节点管理”,找到目标节点池单击“更新”,在“高级配置”中解绑云服务器组或者切换云服务器组。
请使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
virtual-kubelet:表示安装CCE突发弹性引擎(对接 CCI)插件。 version 否 String 插件版本。 可登录CCE控制台,在“插件中心”中单击插件名称,在插件详情页面的“版本记录”页签中查看。若不配置,默认使用最新版本。 values 否 Json Map CoreDNS域名解析:安装插件所需设置的参数说明请参见
集群升级过程中,如果同时升级插件,在集群资源使用率较高的情况下可能会导致插件Pod抢占业务Pod资源,业务Pod被驱逐重建,插件升级完成后将自动恢复。 约束与限制 集群升级出现异常时,集群可通过备份数据进行回滚。若您在升级成功之后对集群进行了其它操作(例如变更集群规格),将无法再通过备份数据回滚。 集群升级至v1
00。在CCE Turbo集群中使用独享型ELB创建Service时,Service关联的每个Pod实例都会在ELB侧创建一个后端服务器,当后端服务器数量超过配额上限时,会出现以上错误。 解决方法:根据业务需求对负载均衡器的后端服务器进行合理规划。 如何查询配额详情 如何查询配额使用详情
的配置。 解决方案 NodeLocal DNSCache可以提升服务发现的稳定性和性能。 关于NodeLocal DNSCache的介绍及如何在CCE集群中部署NodeLocal DNSCache的具体步骤,请参见使用NodeLocal DNSCache提升DNS性能。 父主题:
登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“仪表盘”页签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。
失败或者GPU插件异常。对于使用自定义GPU驱动的场景,请您自行验证。 安装插件 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,单击“安装”。 选择是否“启用dcgm-exporter组件进行DCG
调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载,如果应用负载不均匀可能导致某些节点的负载较高,而其他节点的负载较低。 Volcano调度器支持使用负载感知调度功能,感知
requestsMem 是 String 申请的内存大小,单位:Mi 表5 npc字段数据结构说明 参数 是否必选 参数类型 描述 maxTaintedNode 是 String or Int 单个故障在多个节点间发生时,至多多少节点允许被npc添加污点,避免雪崩效应。 支持int格式和百分比格式。
种容器网络模式,性能存在一定的损耗(约5%-15%)。所以容器隧道网络适用于对性能要求不是特别高的业务场景,比如:Web应用、访问量不大的数据中台、后台服务等。 大规模组网:相比VPC路由网络受限于VPC路由条目配额的限制,容器隧道网络没有网络基础设施的任何限制;同时容器隧道网络
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写
参考桶策略配置,给挂载桶的子用户设置读写权限。 再次尝试在挂载目录内写入数据,写入成功。 kubectl exec obs-secret-5cd558f76f-vxslv -- touch /temp/test 查看容器内挂载目录,验证数据写入成功。 kubectl exec obs-s
0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。
集群休眠后,集群费用将不再收取,但集群内使用的其他云服务资源(例如云硬盘、绑定的弹性IP、带宽等)将按各自的计费方式(“包年/包月”或“按需付费”等)进行收费。 说明: 集群休眠后,集群中的工作节点(即ECS)并不会自动关机,如需关机可勾选“关机集群下所有节点”选项。您也可以在集群休眠后自行登录ECS控制台将节点关机,具体请参见节点关机。
API来实现工作负载弹性伸缩。 创建CustomedHPA策略后,不支持将已关联的工作负载修改为其他工作负载。 创建CustomedHPA策略 在CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“工作负载”,在目标工作负载的操作列中单击“弹性伸缩”。 策略类型选择“CustomedHPA策略”,并填写策略参数。
该插件为系统资源插件,Kubernetes 1.15及以上版本的集群在创建时默认安装。 约束与限制 插件版本为1.2.0的CCE容器存储插件(Everest)优化了使用OBS存储时的密钥认证功能,低于该版本的插件在升级完成后,需要重启集群中使用OBS存储的全部工作负载,否则工作负载使用存储的能力将受影响。
操作过程中可能存在非预期风险,请提前做好相关的数据备份。 操作方法 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击待关机节点的名称。 页面跳转至弹性云服务器详情页中,单击右上角的“关机”,在弹出的关机窗口中单击“确定”,即可完成关机操作。