检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。 nvidia-smi 可以
Web启动代理)”。 其余参数可保持默认,无需填写,并单击“保存”。 在“节点列表”中单击新增的节点名称,可看到Agent状态未连接,并提供了节点连接Jenkins的方式。该命令适用于虚拟机安装,而本示例为容器化安装,因此仅需复制其中的secret,如下图所示。 前往CCE控制台,单击左侧栏目树中的“工作负载
验,保证连接的安全性。 单击“安装”。 访问dashboard 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,确认dashboard插件状态为“运行中”后,单击“访问”。 在CCE控制台弹出的窗口中复制token。 在登录页面中选择“令牌”的登录方式,粘贴
云平台使用公共密钥密码术来保护您的云容器引擎节点的登录信息,密码或密钥对用于远程登录节点时的身份认证。 如果选择密钥登录方式,您需要在创建云容器引擎的集群节点时指定密钥对的名称,然后在SSH登录时提供私钥。创建方法请参见创建密钥对。 如果选择密码登录方式,可以跳过该任务。 如果您计划在多个
存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率 远程写流量 字节/秒 远程写入的速率 当前队列数 个 当前用于并行发送到远程存储的分片数 最大队列数 个 可用于并行发送到远程存储的分片数的最大值 最小队列数 个 可用于并行发送到远程存储的分片数的最小值 期望队列数
强制排水:使用强制排水时,将忽略DaemonSet管理的Pod,但会删除挂载了emptyDir卷的Pod和不受controller管理的Pod。详情请参见节点排水规则说明。 单击“确定”,等待完成节点排水。 请参见通过kubectl连接集群,使用kubectl连接集群。 编辑Drainage资源的YAML。
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
为什么云原生监控插件开启本地数据存储时,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示? 为什么云原生监控插件开启本地数据存储时,重启kube-state-metrics实例可能会导致页面部分数据翻倍? 云原生监控插件开启本地数据存储时为什么不能正常上报指标?
4-r10、v1.27.1-r10及以上版本的集群。 子用户(非管理员)操作 非管理员的子用户仅支持吊销自身的集群访问凭证,请参考如下操作。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“概览”,在右边“连接信息”版块中,单击“吊销”。 图1 吊销集群访问凭证 如果您
会残留存储、网络等关联资源,请妥善处理。 删除按需计费的集群 处于休眠状态的集群无法直接删除,请将集群唤醒后重试。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要删除的集群,查看集群的更多操作,并单击“删除集群”。 图1 删除集群 在弹出的“删除集群”窗口中,根据系统提示,勾选删除集群时需要释放的资源。
通过配置kubeconfig文件实现集群权限精细化管理 问题场景 CCE默认的给用户的kubeconfig文件为cluster-admin角色的用户,相当于root权限,对于一些用户来说权限太大,不方便精细化管理。 目标 对集群资源进行精细化管理,让特定用户只能拥有部分权限(如:增、查、改)。
Prometheus提供了Remote Write标准接口,您可以在CCE云原生监控插件中填写数据上报地址(Remote Write URL),将本地采集到的监控数据远程存储到Prometheus中。 如果您用于接受数据的目的端为第三方厂商提供的Prometheus,您可以前往对应厂商的控制台中查看Remote
image-migrator是一个镜像迁移工具,能够自动将基于Docker Registry v2搭建的Docker镜像仓库中的镜像迁移到SWR中。 准备工作 在开始迁移之前,请确保您已准备了一台安装了kubectl的服务器,用于连接源集群和目标集群。该服务器需要至少拥有5GB左右的本地磁盘空间和≥8G的
在存储池中导入临时卷 CCE支持使用LVM将节点上的数据卷组成存储池(VolumeGroup),然后划分LV给容器挂载使用。在创建本地临时卷前,需将节点数据盘导入存储池。 约束与限制 本地临时卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=1.2.29。 节点上的
连接集群 通过kubectl连接集群 通过CloudShell连接集群 通过X509证书连接集群 通过自定义域名访问集群 配置集群API Server公网访问 吊销集群访问凭证 父主题: 集群
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
<none> 驱逐该节点上的所有Pod。 kubectl drain 192.168.0.160 如果节点上存在绑定了本地存储的Pod或是一些守护进程集管理的Pod,将提示“error: unable to drain node "192.168.0.160" due to error:
能资源隔离机制。 云容器引擎CCE是基于开源Kubernetes的企业级容器服务,提供高可靠高性能的企业级容器应用管理服务,支持Kubernetes社区原生应用和工具,简化云上自动化容器运行环境搭建。 为什么需要使用容器 更高效的利用系统资源。 容器不需要硬件虚拟化以及运行完整操
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 使用通用文件系统(SFS 3.0)时,您需要提前在集群所在VPC创建一个VPC终端节点,集群需要通过VPC终端节点访问通用文件系统。配置VPC终端节点的方法请参见配置VPC终端节点。 约束与限制 使用通用文件系统(SFS