检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作节点如在ECS侧自行挂载了数据盘,重置完后会清除挂载信息,重置完成后请重新执行挂载行为,数据不会丢失。 节点上的工作负载实例的IP会发生变化,但是不影响容器网络通信。 云硬盘必须有剩余配额。 操作过程中,后台会把当前节点设置为不可调度状态。 节点重置会清除用户单独添加的 K8S 标签和污点
卸载Volcano插件或关闭混合部署开关不会影响节点上已有的出口网络带宽保障设置。如需关闭该特性,请关闭“网络隔离”开关。 使用带宽限速有可能造成协议栈缓存积压。对于UDP等无反压机制的协议场景,可能出现有丢包、ENOBUFS等问题。 使用带宽限速会增加离线业务得不到带宽的风险,极端场景可能会
集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 如何收集CCE集群中节点的日志? thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 纳管节点时失败,报错“安装节点失败”如何解决? 工作负载 工作负载状态异常定位方法
/etc/systemd/journald.conf 节点日志缓存内存占用量上限,若不配置长时间运行会占用较大内存。 查看参数: cat /etc/systemd/journald.conf | grep RuntimeMaxUse 修改节点日志缓存内存占用量上限RuntimeMaxUse Openfiles
图1 Volcano Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调度Job,按照定义的次序依次执行
管理多个集群,因此在使用kubectl命令行工具连接集群时需要经常切换kubeconfig配置文件,为日常运维带来许多不便。本文将为您介绍如何便捷地使用同一个kubectl客户端连接多个集群。 用于配置集群访问的文件称为kubeconfig配置文件,并不意味着文件名称为kubeconfig。
计费FAQ 云容器引擎CCE如何定价/收费? CCE集群的计费方式如何由按需改为包年包月? CCE创建的节点是否支持按需转包周期? 华为云支持哪几种开具发票模式? CCE是否支持余额不足提醒? CCE是否支持账户余额变动提醒? 包周期的CCE集群到期可以直接删除吗? 如何退订我的云容器引擎?
Turbo控制台手动创建。 计费因子:存储空间、带宽费用(仅HPC缓存型涉及) 关于SFS计费详情请参见SFS Turbo计费模式。 包年/包月、按需计费 存储空间单价 * 存储空间大小 * 时长 + 带宽(仅HPC缓存型) * 时长 文件存储的价格目录请参见:文件存储价格目录。
T Gateway Administrator权限。 如果使用对象存储,需要全局设置OBS Administrator权限。 说明: 由于缓存的存在,对用户、用户组以及企业项目授予OBS相关的RBAC策略后,大概需要等待13分钟RBAC策略才能生效;授予OBS相关的系统策略后,大概需要等待5分钟系统策略能生效。
指标名称 指标类型 单位 说明 DCGM_FI_DEV_FB_FREE Gauge MB 表示帧缓存剩余数,帧缓存一般被称为显存 DCGM_FI_DEV_FB_USED Gauge MB 表示帧缓存已使用数,该值与nvidia-smi命令中memory-usage的已使用值对应 表3 温度及功率指标
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prometheus绑定
选取后端的目标服务器。但是这种方法在添加删除节点时,所有IP值都需要重新进行hash运算,然后重新路由,这样的话就会导致大面积的会话丢失或缓存失效,因此Nginx Ingress引入了一致性哈希来解决这一问题。 一致性哈希是一种特殊的哈希算法,通过构建环状的hash空间来替代普通
容器CPU累计使用时间 container_memory_rss gauge RSS内存,即常驻内存集。是分配给进程使用的实际物理内存字节数,不是磁盘上缓存的虚机内存。 container_network_receive_bytes_total counter 容器网络累积接收字节数 cont
执行以下命令,取消节点不可调度标记。 kubectl uncordon <node-name> 异常Pod清理 本服务kubelet的GC回收机制与社区保持一致,在清除Pod的Owner(例如Deployment)后,异常Pod也会随之清理。 通过kubelet命令,删除有异常记录的Pod。 父主题: 工作负载异常问题排查
DNSCache来提升服务发现的稳定性和性能。NodeLocal DNSCache会在集群节点上运行DNS缓存代理,所有注入DNS配置的Pod都会使用节点上运行的DNS缓存代理进行域名解析,而不是使用CoreDNS服务,以此来减少CoreDNS服务的压力,提高集群DNS性能。 您
1.28版本,增加了alpha特性ConsistentListFromCache,允许kube-apiserver从缓存中提供一致性列表,Get和List请求可以从缓存中读取数据,而不需要从etcd中获取。 在Kubernetes 1.28版本,kubelet能够配置drop-in
1.28版本,增加了alpha特性ConsistentListFromCache,允许kube-apiserver从缓存中提供一致性列表,Get和List请求可以从缓存中读取数据,而不需要从etcd中获取。 在Kubernetes 1.28版本,kubelet能够配置drop-in
任何干预即可正常工作。有些应用对CPU敏感,CPU敏感型应用有如下特点。 对CPU throttling 敏感 对上下文切换敏感 对处理器缓存未命中敏感 对跨Socket内存访问敏感 期望运行在同一物理CPU的超线程 如果您的应用有以上其中一个特点,可以利用Kubernetes中
随着Kubernetes已经成为云原生应用编排、管理的事实标准,越来越多的应用选择向Kubernetes迁移,用户也越来越关心在Kubernetes上应用如何快速扩容面对业务高峰,以及如何在业务低谷时快速缩容节约资源与成本。 在Kubernetes的集群中,“弹性伸缩”一般涉及到扩缩容Pod个数以及Node个数
获取集群升级路径 功能介绍 获取集群升级路径 调用方法 请参见如何调用API。 URI GET /api/v3/clusterupgradepaths 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式)