检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理操作,例如创建或删除节点等。 常见的导致集群过载的原因: 集群资源数据量过大 etcd和kube-apiserver是集群控制平面的两个核心组件,etcd是后台数据库,负责存储所有集群数据,而kube-apiserver则是控制平面的入口,负责处理请求。为了减轻etcd的负担
token的ServiceAccount,映射到demo用户组(后续使用身份提供商ID访问云服务就具有demo用户组的权限)。此处属性必须是sub,值的格式为:system:serviceaccount:Namespace:ServiceAccountName 规则的json格式如下。
(停止维护)Kubernetes 1.13版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.13版本所做的变更说明。 表1 v1.13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性:
使用GPU虚拟化 本文介绍如何使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。 前提条件 已完成GPU虚拟化资源准备。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 单个GPU卡最多虚拟化成20个GPU虚拟设备。
apiVersion 是 String API版本,固定值v1 kind 是 String API类型,固定值PersistentVolumeClaim metadata 是 PersistentVolumeClaimMetadata object metadata是集群对象的元数据定
Kubernetes中常用的临时卷: EmptyDir:Pod启动时为空,存储空间来自本地的kubelet根目录(通常是根磁盘)或内存。EmptyDir是从节点临时存储中分配的,如果来自其他来源(如日志文件或镜像分层数据)的数据占满了临时存储,可能会发生存储容量不足的问题。 ConfigMap
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
上报到AOM的指标同时存在新老kube-state-metrics实例的数据。又因为instance标签值不一致,这两次上报的指标都被认为是有效数据。从而导致“监控中心 > 集群”页面在统计的节点、工作负载、Pod、命名空间、控制面组件的数量时翻倍。若无特殊场景,对接AOM推荐使用关闭本地数据存储的云原生监控插件。
如何修复出现故障的容器网卡? 容器的网卡出现故障,会导致容器不断重启,且该容器无法对外提供服务。可通过如下步骤修复出现故障的容器网卡: 操作步骤 执行如下命令,删除故障容器的Pod。 kubectl delete pod {podName} -n {podNamespace} 其中:
/dev/nvidiactl: root 12192 F.... nvidia-gpu-devi 删除进程,上例中的进程号是12192,运行命令:sudo kill 12192 # sudo kill 12192 # sudo fuser -v /dev/nvidia*
限于“always”或“never”。当请求头的值命中指定的自定义值时,请求将会转发给Canary Ingress定义的对应后端服务,如果是其他值则忽略该annotation,并通过优先级将请求流量分配到其他规则。 nginx.ingress.kubernetes.io/cana
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
这也是云原生混部解决方案中的两个核心设计:全域统一调度和资源分级管控。 全域统一调度和资源分级管控 全域统一调度 应用的全域统一调度的核心是全域和统一,比如:分布式云场景中跨云、跨集群的统一调度,以及不同在线应用、离线任务的统一调度。 首先,Volcano通过静态分析,获取应用的
apiVersion 是 String API版本,固定值v3 kind 是 String API类型,固定值Configuration metadata 是 ConfigurationMetadata object Configuration的元数据信息 spec 是 ClusterConfigurationsSpec
如何修改CCE集群名称? 集群创建完成后,支持修改集群名称。 登录CCE控制台,单击集群名称进入集群。 在集群信息页面,单击集群名称后的。 图1 修改集群名称 输入新的集群名称后,单击“保存”。 集群名称不能与其他集群的名称或原名相同。 集群名称修改后,如果集群相关的周边服务已使
ELB Ingress和Nginx Ingress对比 在CCE服务中,集群支持通过Nginx Ingress和ELB Ingress为应用提供7层网络访问。 Nginx Ingress:CCE基于社区的Nginx Ingress Controller进行了优化,并定期同步社区特性和Bug修复。Nginx
--class:应用程序,例如org.apache.spark.examples.SparkPi。 --conf:Spark配置参数,使用键值格式。值得一提的是,所有能使用--conf指定的参数均会默认从文件~/spark-obs/conf/spark-defaults.conf中读取,所以通用配置
metricsQuery:对seriesQuery中PromQL请求的数据进行聚合操作。 resources:是PromQL里的数据Label,与resource进行匹配。此处的resource是指集群内的api-resource,例如Pod、Namespace和Node。您可以通过kubectl
pod字段说明 参数名 是否必选 参数解释 apiVersion 是 api版本号。 kind 是 创建的对象类别。 metadata 是 资源对象的元数据定义。 name 是 Pod的名称。 spec 是 spec是集合类的元素类型,pod的主体部分都在spec中给出。具体请参见表2。
告警中心FAQ 如何停止接收告警? 在“告警中心 > 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么?