检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
业务“潮汐”特性明显,预留资源较多:在线业务具有明显日级别波峰、波谷特性,用户为保证服务的性能和稳定性按照波峰申请资源,集群的大部分资源处于闲置状态。 在线和离线作业分布不同集群,资源无法分时复用:用户为在线和离线作业划分不同的K8s集群中,在线业务在波谷时,无法部署离线作业使用这部分资源。
区能力基本一致。 使用CCE,您需要创建集群和节点,简单、低成本、高可用,无需管理Master节点。 CCI提供 Serverless Container引擎,在华为云上部署容器时,您不需要购买和管理ECS,可以直接在华为云上运行容器和Pod,为您省去底层ECS的运维和管理工作。
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
可以选择多台云服务器批量纳管,但批量纳管仅支持添加相同规格、相同可用区、相同数据盘配置的云服务器。 如果云服务器有多块数据盘,需要选择其中一块作为供容器运行时和Kubelet组件使用。 容器引擎 CCE支持Docker和Containerd容器引擎,不同的集群类型、集群版本、操作系统可能导致支持的容器引擎
重启自动升级:每次都尝试重新下载镜像。 重启手动升级:如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像。 APM2.0探针 探针版本:选择探针的版本。 “探针升级策略”,默认为“重启自动升级”。 重启自动升级:每次都尝试重新下载镜像。 重启手动升级:如果本地有该镜像,则使用本地镜像,本地不存在时下载镜像。
无用户节点的Serverless版集群,无需对节点的部署、管理和安全性进行维护,并根据CPU和内存资源用量按需付费。 使用场景 - 面向有云原生数字化转型诉求的用户,期望通过容器集群管理应用,获得灵活弹性的算力资源,简化对计算、网络、存储的资源管理复杂度。 适合对极致性能、资源利用率提升和全场景覆盖有更高诉求的客户。
9系统报此错误属正常现象,也可通过下述解决方案进行处理。 解决方案: 确认报错unknown authority的第三方镜像服务器地址和端口。 从"实例拉取镜像失败"事件信息中能够直接看到报错的第三方镜像服务器地址和端口,如上图中错误信息为: Failed to pull image "bitnami/redis-cluster:latest":
的路由配额。每个节点将会被分配固定大小的IP地址段。VPC网络由于没有隧道封装的消耗,容器网络性能相对于容器隧道网络有一定优势。VPC网络集群由于VPC路由中配置有容器网段与节点IP的路由,可以支持集群外直接访问容器实例等特殊场景。 图2 VPC网络 云原生网络2.0:深度整合弹性网卡(Elastic
避免服务中断可以从Deployment和Service两类资源入手: Deployment可以采用滚动升级的升级方式,为对各个实例逐个进行更新,而不是同时对所有实例进行全部更新,可以控制Pod的更新速度和并发数,从而确保了升级过程中业务不中断。例如,可以设置maxSurge和maxUnavaila
对于单集群内多个用户共享使用的场景,如果将Pod和Service的创建和更新权限授予不信任的用户易受此漏洞的影响。 涉及所有Kubernetes版本。 漏洞修复方案 建议您检查所有使用externalIP和loadBalancerIP的Service,确认是否有可疑的Service。 该问题由K
速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。CCE支持将使用DSS创建的存储卷挂载到容器。 专属存储性能规格 存储池性能的主要指标有IO读写延时、IOPS和吞吐量。 IOPS:每秒进行读写的操作次数。 吞吐量:每秒成功传送的数据量,即读取和写入的数据量。 IO读写延
ageClass),即可自动创建对象存储和对应的PV对象。 在有状态负载中动态挂载本地持久卷:仅有状态工作负载支持,可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。适用于多实例的有状态工作负载。 本地持久卷不支持通过静态
UUID=%s, SN=%s, the device will go unhealthy. GPU设备存在Xid错误,Xid捕获范围为74和79 隔离单点故障的GPU设备 GPUHealthWarning Device=%s, UUID=%s, SN=%s failed to get
weight:Pod拓扑调度,默认值是2。 配置建议: 建议使用默认配置,如果业务有特殊的述求,可以根据业务实际场景调整各权重值。 增大策略对应的权重值,可以使该策略在节点打分时发挥更大的影响力。 NodeOrder和Binpack对某个节点的给出的基础分值,并根据对应的权重值进行倍数放大
值等于1时,说明所有的CPU资源都在处理请求。 值大于1时,说明有部分线程在等待处理。 内存使用量 字节 不同模式的内存使用情况 内存使用率 百分比 主机内存使用率 磁盘写入速率 字节/秒 不同的磁盘的写入速率 磁盘读取速率 字节/秒 不同的磁盘的读取速率 磁盘空间使用 字节 磁盘可用量和已使用量 磁盘空间使用率 百分比
联系组当前只支持短信和邮件,超过SMN免费范围(短信数量小于100/条/月、邮件数量小于1000/封/月的,推送免费)的将会收费。详情请参见SMN计费说明。 为什么关闭日志中心后还有收费产生? 日志中心的收费由LTS进行收费,日志中心关闭之后,不会产生读写和索引的费用,但会收取日
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。 影响范围 x86内核版本:4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 arm内核版本:4
y或effect,在开启同步后,会在已有节点上增加一个全新的污点(key不同但value和effect相同或effect不同但key和value相同)。这是由于K8s污点原生逻辑使用key和effect作为一组匹配键值,即key或effect不同的污点会被认为是两个污点。 新增节点调度策略
升级方式。 前提条件 表1 迁移前Checklist 类别 描述 集群相关 Nodeip强相关:确认之前集群的节点IP(包括EIP),是否有作为其他的配置或者白名单之类的设置。 工作负载 记录工作负载数目,便于迁移后检查。 存储 确认应用中存储,是否使用云,或者自己搭建存储。 自
-----------+ 清理驱动文件和历史命令。 rm NVIDIA-Linux-x86_64-535.54.03.run /root/nvidia-installer.log && history -c 恢复节点。 恢复kubelet和containerd运行时服务。 恢复服务(containerd运行时)