检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为Nginx Ingress配置GRPC协议的后端服务 为Nginx Ingress配置一致性哈希负载均衡 为Nginx Ingress配置应用流量镜像 为Nginx Ingress配置跨域访问 Nginx Ingress使用建议 高负载场景下NGINX Ingress控制器的性能调优 为NGINX
就绪探针(Readiness Probe) 一个新Pod创建后,Service就能立即选择到它,并会把请求转发给Pod,那问题就来了,通常一个Pod启动是需要时间的,如果Pod还没准备好(可能需要时间来加载配置或数据,或者可能需要执行一个预热程序之类),这时把请求转给Pod的话,Pod也无法处理,造成请求失败。
更新集群,如后续允许集群支持RBAC,调度参数更新等 cce:cluster:upgrade 升级集群 cce:cluster:start 唤醒集群 cce:cluster:stop 休眠集群 cce:cluster:list 查询集群列表 cce:cluster:get 查询集群详情 cce:node:create
HPA工作机制 HPA(Horizontal Pod Autoscaler)是用来控制Pod水平伸缩的控制器,HPA周期性检查Pod的度量数据,计算满足HPA资源所配置的目标数值所需的副本数量,进而调整目标资源(如Deployment)的replicas字段。 图1 HPA工作机制
/opt/launcher.py|84| Command ran successfully sleep for ever. 可以看到单个GPU的训练性能为69.68 images/sec。 父主题: 在CCE集群中部署使用Kubeflow
运行多个实例 如果您的整个应用程序在独立的Pod中运行,那么如果该Pod出现异常,应用程序将不可用。请使用Deployment或其他类型的副本集来部署应用,每当Pod失败或被终止,控制器会自动重新启动一个与之相同的新Pod,以确保指定数量的Pod始终运行。 同时,在创建工作负载时,您
相比于普通运行时,安全运行时可以让您的每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。通过使用安全运行时,不同容器之间的内核、计算资源、网络都是隔离开的,保护了Pod的资源和数据不被其他Pod抢占和窃取。 CCE Turbo集群支持使用普通运行时
CCE突发弹性引擎(对接CCI)插件版本发布记录 表1 CCE突发弹性引擎(对接CCI)插件版本记录 插件版本 支持的集群版本 更新特性 1.5.27 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 1.5
是否需要开通监控中心 修复方案 Pod状态 Pod状态检查 否 Pod状态异常,可能会降低Pod所属工作负载的服务能力;所有副本均不可用时,会导致业务不可用。可以通过如下命令来查看 Pod 的信息: 查看 Pod 的配置是否正确:kubectl get pod <PodName> -n <Namespace>
在集群中创建使用gRPC协议的工作负载。 复制以下YAML内容创建grpc.yaml文件。本文中使用官方示例应用构建的Docker镜像作为示例。 apiVersion: apps/v1 kind: Deployment metadata: annotations: description: ''
插件规格。 登录CoreDNS Pod所在节点,查看以下文件内容: cat /sys/fs/cgroup/cpu/kubepods/pod<pod_uid>/<coredns容器id>/cpu.stat <pod uid>为CoreDNS的Pod UID,可通过以下命令获取: kubectl
网络流向如下所示: CCE Standard集群场景 CCE Turbo集群使用共享型ELB场景 CCE Turbo集群使用独享型ELB场景 图2 ELB Ingress工作原理(CCE Standard集群场景) 图3 ELB Ingress工作原理(CCE Turbo集群使用共享型ELB场景)
)的信息当作预设参数写入到该Pod内的DNS配置。ClusterFirst是默认的pod设置,若没有在Pod内特别描述PodPolicy,则会将dnsPolicy预设为ClusterFirst。不过ClusterFirst还有一个冲突,如果您的Pod设置了HostNetwork=
/sys/fs/cgroup/cpuset/kubepods/pod{pod uid}/{容器id}/cpuset.cpus {pod uid}为Pod UID,可在已通过kubectl连接集群的机器上使用以下命令获取: kubectl get po {pod name} -n {namespace} -ojsonpath='{
容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。 插件会对实例添加针对node.kubernetes
sfs-turbo-test.yaml。 创建Deployment挂载已有数据卷 新建一个Deployment的YAML文件,例如deployment-test.yaml。 配置示例: apiVersion: apps/v1 kind: Deployment metadata: name:
如果节点中的vdb盘被删除,可参考此章节内容恢复节点。 排查项十:排查Docker服务是否正常 执行以下命令确认docker服务是否正在运行: systemctl status docker 若执行失败或服务状态非active,请确认docker运行失败原因,必要时可提交工单联系技术支持。 执行以下命令检查当前节点上所有容器数量:
创建裸盘 在控制台,单击新增数据盘后,在高级配置中默认,则创建磁盘为裸盘。 使用API调用则可以按如下配置。 cceUse selector匹配到一块100G 数据盘。 所选磁盘被cce管理用作数据盘。 dataVolumes中创建的另一块100G 数据盘未被任何selector选中并被
13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点 负载均衡支持设置名称
到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker ps –a | grep nvidia 查看日志 docker logs 容器id 业务上报nvidia版本和cuda版本不匹配?