检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
CCE容器拉取私有镜像时报错“Auth is empty” 问题描述 在CCE的控制台界面中为已经创建的工作负载更换镜像,选择我上传的镜像,容器在拉取镜像时报错“Auth is empty, only accept X-Auth-Token or Authorization”。 Failed
CoreDNS视图 提供了负载域名解析的CoreDNS监控视图,包含请求、响应情况,以及缓存状况。 指标说明 CoreDNS视图暴露的指标如下: 图1 CoreDNS视图指标 表1 CoreDNS指标说明 指标名称 单位 说明 请求速率 个/秒 CoreDNS每秒请求个数 请求速率(记录类型)
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求
将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 弹性文件服务(SFS)提供了SFS容量型(SFS 1.0)、通用文件系统(SFS 3.0)和SFS Turbo三种类型的文件系统,关于各类型文件系统的特点和优势请参见文件系统类型。 历史版本中,CCE支持在工作负载中挂载SFS
ELB Ingress出现告警:Invalid input for rules 问题现象 创建或更新ELB Ingress时出现告警,信息如下: Update elb(*****) listener(*****)error: status_code: 400, resp_body
负载均衡器配置:转发策略配置 访问域名 路由转发策略的访问域名 参数名 取值范围 默认值 是否允许修改 作用范围 spec.rules[].host 无 空 允许 CCE Standard/CCE Turbo Ingress中一条转发策略的访问域名配置 访问URL 路由转发策略的访问URL
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸
type 密钥类型 密钥的子类型 参数名 取值范围 默认值 是否允许修改 作用范围 type Opaque:一般密钥类型。 kubernetes.io/dockerconfigjson:存放拉取私有仓库镜像所需的认证信息。 kubernetes.io/tls:Kubernetes
节点监控 如果您需要监控节点的资源使用情况,可以前往“监控中心 > 节点”页面查看。该页面提供了指定集群下所有节点的综合信息,以及单个节点的详细监控数据,包括CPU/内存使用率、网络流入/流出速率、磁盘读/写IO等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
GPU节点使用nvidia驱动启动容器排查思路 集群中的节点是否有资源调度失败的事件? 问题现象: 节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
通过动态存储卷创建SFS Turbo子目录(推荐) 通常情况下,在工作负载容器中挂载SFS Turbo类型的存储卷时,默认会将根目录挂载到容器中。而SFS Turbo的容量最小为500G,超出了大多数工作负载所需的容量,导致存储容量的浪费。为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
设置时区同步 创建工作负载时,支持设置容器使用节点相同的时区。您可以在创建工作负载时打开时区同步配置。 时区同步功能依赖容器中挂载的本地磁盘(HostPath),如下所示,开启时区同步后,Pod中会通过HostPath方式,将节点的“/etc/localtime”挂载到容器的“/
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
命名空间 命名空间因APIService对象访问失败无法删除 如何删除Terminating状态的命名空间?
删除动态创建的PVC之后,底层存储依旧残留 问题现象 删除集群中动态创建的PVC,PVC使用的StorageClass中reclaimPolicy为Delete模式,但删除PVC时底层存储却没有被同步删除。 触发场景 同时删除PVC和与其绑定的PV,会出现底层存储没有被同步删除的情况。
实施步骤 Jenkins Master安装部署 Jenkins Agent配置 使用Jenkins构建流水线 参考:Jenkins对接Kubernetes集群的RBAC 父主题: 在CCE中安装部署Jenkins