检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
metheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控系统,如下所示,节约维护成本和资源成本,且方便汇聚监控信息。 前提条件 目标集群已创建。 Prometheus与目标集群之间网络保持连通。 已在一台Linux主机中使用二进制文件
在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step)
provider进行数据加密指南。 Pod新增网络就绪状况 Kubernetes 1.25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段
这些节点上有污点(Taints)存在。比如,对于一个与节点本地状态有着深度绑定的应用而言, 您可能希望在出现网络分裂事件时仍然停留在当前节点上运行一段较长的时间,以等待网络恢复以避免被驱逐。 某些情况下,Kubernetes节点控制器会自动给节点添加一个污点,建议给node.kubernetes
PU管理策略。 33 用户节点组件健康检查异常处理 检查用户节点的容器运行时组件和网络组件等是否健康。 34 控制节点组件健康检查异常处理 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 35 K8s组件内存资源限制检查异常处理
provider进行数据加密指南。 Pod新增网络就绪状况 Kubernetes 1.25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段
od重建,访问将恢复。 问题场景三:部分老版本的CCE插件存在该异常 请将老版本的CCE插件升级至最新版本。例如1.2.2以下的CCE容器网络扩展指标插件存在该问题,需升级至1.2.2及以上版本。 问题场景四:日志分析里面出现“failed to execute docker ps
log v1.19及以下版本集群:/var/paas/sys/log/kubernetes/kube-proxy.log yangtse日志(网络) v1.21及以上版本集群:/var/log/cce/yangtse v1.19及以下版本集群:/var/paas/sys/log/yangtse
激活成功后显示如下。 图2 激活成功 给集群所使用资源打标签。 集群所使用资源包括集群Master节点、节点,存储资源(EVS、SFS、OBS等),网络资源(ELB、EIP等)。其中节点会默认添加CCE-Cluster-ID标签。 给集群添加标签。 在CCE控制台进入集群信息页面,在资源标签处给集群打标签。
Worker),使用默认调度器,有可能会出现(a)、(b)、(c)三种情况的任意一种情况,(c)才是最想要的调度结果。因为在(c)中,Ps和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高
l连接到集群,详情请参见通过kubectl连接集群。 您已经创建好一个状态可用的SFS Turbo,并且SFS Turbo与集群在同一个VPC内。 通过控制台动态创建SFS Turbo子目录 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏选择“存储”,在右侧选择“存储卷声
离。 下列检查项中若未明确指出检查周期,则默认周期为30秒。 表4 系统组件检查 故障检查项 功能 说明 容器网络组件异常 CNIProblem 检查CNI组件(容器网络组件)运行状态 无 容器运行时组件异常 CRIProblem 检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态
007250b0c 1Gi RWX csi-nas 71s StatefulSet的网络标识 StatefulSet创建后,可以看下Pod是有固定名称的,那Headless Service是如何起作用的呢,那就是使用DNS,为
地址格式为:ip:port/path/name:version或name:version,若没标注版本号则默认版本号为latest。 若是私有仓库,请填写ip:port/path/name:version。 若是docker开源仓库,请填写name:version,例如nginx:latest。
io/pid-pressure:节点存在 PID 压力。 node.kubernetes.io/network-unavailable:节点网络不可用。 node.kubernetes.io/unschedulable:节点不可调度。 node.cloudprovider.kubernetes
场景4:采用HostNet的DNS解析 如果在Pod中使用hostNetwork:true来配置网络,pod中运行的应用程序可以直接看到宿主机的网络接口,宿主机所在的局域网上所有网络接口都可以访问到该应用程序,配置如下所示: apiVersion: extensions/v1beta1
server annotations: kubernetes.io/elb.id: 038ff*** #请替换为集群所在VPC下的ELB实例ID,且ELB实例为公网访问类型 spec: ports: - name: cce-service-0
升级方式 表1 升级方式介绍 升级方式 介绍 升级范围 优点 约束 原地升级 节点上升级Kubernetes组件、网络组件和CCE管理组件,升级过程中业务Pod和网络均不受影响。 升级过程中,节点分批进行升级,存量节点将不可调度,升级完成的批次支持调度新业务。 节点操作系统不升级
由于社区安全加固,v1.27及以上版本的集群中ClusterIP地址无法ping通。 额外限制 当集群中超过3000个Service时,可能会出现网络延迟的情况。 Ingress和Service(或不同集群Service不同端口)使用相同ELB实例时,无法在集群内的节点和容器中访问Ing
公网带宽:6Mbit/s,按带宽计费 1 弹性负载均衡 2023/03/19 9:20:00 按需计费 区域:上海一 类型:独享型 可用区:单可用区 规格:网络型(TCP/UDP),小型 I 规格(10LCU) 公网带宽:5Mbit/s,按流量计费 1 在业务验证过程中,出于一些原因,该用户对集群的资源进行了以下变更: