检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看对应节点kubelet版本,以下为正常回显: 图1 kubelet版本 若该节点的VERSION与其他节点不同,则该节点为升级过程中跳过的节点,请在合适的时间重置节点后,重试检查。
kubectl命令行工具使用kubeconfig配置文件来查找选择集群所需的认证信息,并与集群的API服务器进行通信。默认情况下,kubectl会使用“$HOME/.kube/config”文件作为访问集群的凭证。 在CCE集群的日常使用过程中,我们通常需要同时管理多个集群,因此在使用ku
同时,您也可以配置就绪探针(Readiness Probe),用于探测Pod是不是可以正常对外提供服务。应用在启动过程中可能会需要一些时间完成初始化,在这个过程中是没法对外提供服务的,为Pod添加过就绪探针后,当检测到Pod就绪时才会允许Service将请求转给Pod。当Pod
sh/helm-v3.3.0-linux-amd64.tar.gz 解压Helm包。 tar -xzvf helm-v3.3.0-linux-amd64.tar.gz 将Helm复制到系统path路径下,以下为/usr/local/bin/helm。 mv linux-amd64/helm
检查Job达到预定的数量后,是否存在过多运行成功的Pod。 CronJob 查询失败 FailedGet 次要 查询CronJob是否成功。 CronJob 查询Pod列表失败 FailedList 次要 检查查询Pod列表是否成功。 CronJob 未知Job UnexpectedJob
台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
该漏洞是由OpenSSH服务器 (sshd) 中的信号处理程序竞争问题引起。攻击者可以利用此漏洞,以未授权的形式在Linux系统上用root身份执行任意代码。 判断方法 查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS
Pod通过虚拟Ethernet接口对(Veth Pair)与外部通信,Veth Pair像一根网线,一端在Pod内部,一端在Pod外部。同一个节点上的Pod通过网桥(Linux Bridge)通信,如下图所示。 图1 同一个节点中的Pod通信 在同一节点上的Pod会通过Veth设备将一端连接到网桥,且它们的IP
容顺序,实现资源管理的最优化。在使用默认扩缩容优先级策略的情况下,扩容过程中Pod优先被调度到包周期的节点,其次被调度到按需计费的节点,最后被调度到virtual-kubelet节点(弹性至CCI);缩容过程中优先删除virtual-kubelet节点(弹性至CCI)的Pod,其
04 使用 根据业务发展需要,您可以随时扩容集群、变更节点规格、纳管节点、设置节点和工作负载伸缩策略或使用节点池管理。除此之外,您还可以实时查看监控指标及审计日志,以便及时了解集群和节点的健康状态。 集群管理 通过kubectl连接集群 升级集群 集群休眠与唤醒 集群配置管理 获取集群证书
集群升级 功能介绍 集群升级。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{projec
概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。 检查方法 以root用户登录node节点。 执行以下命令检查当前节点是否存在该问题: auditctl -l |
问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不存在,请您从其他节点复制sudo命令到该节点。 问题场景二:关键文件不可修改 集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers
暂停集群升级任务(已废弃) 功能介绍 暂停集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects
/root/jdk1.8.0_151 # 将mongodb-linux-x86_64-rhel70-3.2.9目录下的文件复制到容器目录下 COPY ./mongodb-linux-x86_64-rhel70-3.2.9/bin /usr/local/mongodb/bin
继续执行集群升级任务(已废弃) 功能介绍 继续执行被暂停的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects
重试集群升级任务 功能介绍 重新执行失败的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /api/v3/projects
新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 操作:可单击“删除”按钮删除该配置。 注解:以“key: value”形式设置,可通过Annotations查询Nginx Ingress支持的配置。
检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 42 节点Sudo检查异常处理 检查当前节点sudo命令,sudo相关文件是否正常。 43 节点关键命令检查异常处理 检查节点升级依赖的一些关键命令是否能正常执行。
Node节点vdb盘受损,通过重置节点仍无法恢复节点? 问题现象 客户node节点vdb盘受损,通过重置节点,无法恢复节点。 问题过程: 在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别