检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。 GPU节点: # 插件版本为2.0.0以下时,执行以下命令:
载了PVC的资源时,在集群迁移后,PVC状态会处于pending状态。 请确保CCE侧集群中没有与被迁移集群侧相同的资源,因为Velero工具在检测到相同资源时,默认不进行恢复。 为确保集群迁移后容器镜像资源可以正常拉取,请将镜像资源迁移至容器镜像服务(SWR)。 CCE不支持R
CPU Limit值,以降低业务长尾响应时延,详情请参见CPU Burst弹性限流。 出口网络带宽 开启 在CCE Turbo集群中,支持在线业务与离线业务的网络隔离,详情请参见出口网络带宽保障。 资源超卖 开启 通过实时采集节点负载信息,挖掘节点已分配、但未使用的资源,实现动态
Burst。 您可以使用wrk工具对工作负载进行加压,观察开启和关闭CPU Burst时业务的时延、限流情况、突破CPU limit的情况。 使用以下命令为Pod加压,其中<service_ip>为Pod关联的Service IP。 # 您需要在节点上下载并安装wrk工具 # 在Apache配置中开启了Gzip压缩模块
区调度策略,此类应用使用Autoscaler扩容时可能因调度算法不一致出现无法扩容或多扩风险。 缩容流程:Autoscaler每隔10s会扫描一次所有的Node,如果该Node上所有的Pod Requests少于用户定义的缩容百分比时,Autoscaler会模拟将该节点上的Pod是否能迁移到其他节点。
当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新调度并重建该容器,以保持预期的实例数量。 Pod优先级抢占 当高优先级的Pod需要资源时,Kubernetes可能
io等下载镜像,建议在华为云国际站创建集群,否则容易碰到较多网络问题。 节点上绑定了EIP,并配置了kubectl命令行工具,详情请参见通过kubectl连接集群。 安装Kustomize Kustomize是一个开源工具,用于管理Kubernetes应用程序的配置。它允许您将应用程序的配置从应用程序本身中分离
s等),当由于网络或对端nfs服务器异常等原因导致连接异常时,所有访问该挂载点的进程均卡死。例如集群升级场景kubelet重启时扫描所有挂载点,当扫描到此异常挂载点会卡死,导致升级失败。 等效检查命令: for dir in `df -h | grep -v "Mounted on"
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
慢启动仅对新增后端服务器Pod生效,后端服务器组Pod首次添加后端服务器慢启动不生效。 后端服务器的慢启动结束之后,不会再次进入慢启动模式。 在健康检查开启时,后端服务器Pod在线后慢启动生效。 在健康检查关闭时,慢启动立即生效。 在配置慢启动后,该Ingress下的所有转发策略都会生效。 设置慢启动持续时间 请参见
要指定网络地址进行访问,也可以将网络地址映射为本地目录后进行访问。 提供标准的文件访问协议NFS(仅支持NFSv3),用户可以将现有应用和工具与SFS Turbo无缝集成。 可以通过互联网或专线访问。需要指定桶地址进行访问,使用的是HTTP和HTTPS等传输协议。 只能在ECS/
r-framework拓展默认调度器 kube-scheduler如何完成调度和调整调度权重 CCE云原生混部场景下在线任务抢占、压制离线任务CPU资源、保障在线任务服务质量效果测试 Kubernetes容器存储相关 Kubernetes子路径subpath原理及使用场景 Kubernetes容器域名相关
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
全托管免运维:ELB属于全托管免运维的云服务,不占用工作节点。 高可用性:ELB支持多可用区的同城双活容灾,无缝实时切换。完善的健康检查机制,保障业务实时在线。 自动弹性:ELB支持自动弹性规格,处理能力随业务峰值自动伸缩。 超强性能:单个ELB实例最大支持100万QPS、千万级并发连接。 云产
<none> Mountable secrets: default-token-vssmw Tokens: default-token-vssmw Events: <none> 1.25及以上版本集群,查看
用于长期、稳定的业务需求。以下是一些适用于包年/包月计费模式的业务场景: 稳定业务需求:对于长期运行且资源需求相对稳定的业务,如企业官网、在线商城、博客等,包年/包月计费模式能提供较高的成本效益。 长期项目:对于周期较长的项目,如科研项目、大型活动策划等,包年/包月计费模式可以确保在整个项目周期内资源的稳定使用。
配额累计使用量包含CCE系统默认创建的资源,如default命名空间下系统默认创建的kubernetes服务(该服务可通过后端kubectl工具查看)等,故建议命名空间下的资源配额略大于实际期望值以去除系统默认创建资源的影响。 在Kubernetes中,外部用户及内部组件频繁的数据
共享镜像:可选择由其他账号共享的镜像。关于共享镜像的操作详情请参见共享私有镜像。 容器镜像服务 企业版:提供企业级的独享安全托管服务,支持镜像加签、镜像安全扫描,保障数据安全。 所属实例:选择企业版仓库实例,您需要提前购买一个企业版仓库,详情请参见购买仓库。 域名:企业版仓库支持配置多个自定义域名
检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。 36 K8s废弃API检查异常处理 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 说明: 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能
共享镜像:可选择由其他账号共享的镜像。关于共享镜像的操作详情请参见共享私有镜像。 容器镜像服务 企业版:提供企业级的独享安全托管服务,支持镜像加签、镜像安全扫描,保障数据安全。 所属实例:选择企业版仓库实例,您需要提前购买一个企业版仓库,详情请参见购买仓库。 域名:企业版仓库支持配置多个自定义域名