检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
为ELB Ingress配置了HTTPS证书后访问异常的原因有哪些? 为ELB Ingress配置了HTTPS证书后,如果证书配置出现以下问题,可能导致访问异常,您可以参考表格中的原因进行排查。 访问异常原因 问题现象 解决方案 证书已过期 通过curl命令测试时报错信息如下: SSL
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
在CCE中实现应用高可用部署 基本原则 在CCE中,容器部署要实现高可用,可参考如下几点: 集群选择3个控制节点的高可用模式。 创建节点选择在不同的可用区,在多个可用区(AZ)多个节点的情况下,根据自身业务需求合理的配置自定义调度策略,可达到资源分配的最大化。 创建多个节点池,不
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
集群控制器并发配置 deployment并发处理数 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高 参数名 取值范围 默认值 是否允许修改 作用范围 concurrent-deployment-syncs 大于等于0 5 允许 CCE Standard/CCE
网络异常问题排查 工作负载网络异常时,如何定位排查? 负载均衡类型Service异常问题排查 集群内部无法使用ELB地址访问负载 集群外部访问Ingress异常 CCE集群中域名解析失败 为什么访问部署的应用时浏览器返回404错误码? 为什么容器无法连接互联网? VPC的子网无法删除,怎么办?
通过CCE配置自定义告警 当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。 添加指标类告警示例 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。
插件实例字段说明 CoreDNS域名解析 CCE容器存储插件(Everest) CCE节点故障检测 Kubernetes Dashboard CCE集群弹性引擎 NGINX Ingress控制器 Kubernetes Metrics Server CCE容器弹性引擎 CCE突发弹性引擎(对接CCI)
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
节点池扩容失败 排查思路 请根据节点池扩容失败的具体事件信息确定问题原因,如表1所示。 表1 节点池扩容失败 事件信息 问题原因 解决方案 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the
节点池异常状态排查 排查思路 请根据具体节点池异常状态确定具体问题原因,如表1所示。 表1 节点池异常 节点池异常状态 说明 解决方案 错误 Error 节点池删除失败 重试删除节点池操作,如果节点池仍旧无法删除,请提交工单帮助删除错误节点池。 配额不足 QuotaInsufficient
负载均衡器配置:监听器配置 对外访问端口 路由对接的负载均衡器对外暴露的访问端口 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.port 1-65535 无 允许 CCE Standard/CCE Turbo
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
秒级弹性伸缩 应用场景 电商客户遇到促销、限时抢购等活动期间,访问量激增,需及时、自动扩展云计算资源。 视频直播客户业务负载变化难以预测,需要根据CPU/内存使用率进行实时扩缩容。 游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根
如何设置容器内的DNS策略? CCE支持通过dnsPolicy标记每个Pod配置不同的DNS策略: None:表示空的DNS设置,这种方式一般用于想要自定义DNS配置的场景,而且,往往需要和dnsConfig配合一起使用达到自定义DNS的目的。 Default:从运行所在的节点继
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求
删除动态创建的PVC之后,底层存储依旧残留 问题现象 删除集群中动态创建的PVC,PVC使用的StorageClass中reclaimPolicy为Delete模式,但删除PVC时底层存储却没有被同步删除。 触发场景 同时删除PVC和与其绑定的PV,会出现底层存储没有被同步删除的情况。
命名空间 命名空间因APIService对象访问失败无法删除 如何删除Terminating状态的命名空间?