检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 弹性文件服务(SFS)提供了SFS容量型(SFS 1.0)、通用文件系统(SFS 3.0)和SFS Turbo三种类型的文件系统,关于各类型文件系统的特点和优势请参见文件系统类型。 历史版本中,CCE支持在工作负载中挂载SFS
correct and whether it can be mounted. 工作负载中使用了通用文件系统(SFS 3.0),但未创建通用文件系统使用的VPCEP,导致文件系统无法访问。 在集群所在VPC创建一个VPC终端节点,配置VPC终端节点的方法请参见配置VPC终端节点。 存储卷挂载超时
如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节 Kubeflo
thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? 问题描述 当节点上的thinpool磁盘空间接近写满时,概率性出现以下异常: 在容器内创建文件或目录失败、容器内文件系统只读、节点被标记disk-pressure污点及节点不可用状态等。 用户可手动在节点上执行docker
Pod删除时,会等待Pod完全删除或最长30秒删除状态后进行IPv6双栈网卡移出共享带宽。 如果Pod对应的IPv6双栈网卡加入共享带宽失败,Pod上会有Event告警事件FailedIPv6InsertBandwidth(如超过配额,触发流控等),请根据告警事件进行相应的处理。
命名空间因APIService对象访问失败无法删除 问题现象 删除命名空间时,命名空间一直处“删除中”状态,无法删除。查看命名空间yaml配置,status中有报错“DiscoveryFailed”,示例如下: 上图中报错信息为:Discovery failed for some
成功。 Pod运行状态为Init:Error,说明Pod中的Init容器启动失败。 Pod运行状态为Init:CrashLoopBackOff,说明Pod中的Init容器启动失败并处于反复重启状态。 解决方案 查看Pod的事件,确认当前Pod中未启动的Init容器是否存在异常。具体操作,请参见Pod事件查看方法。
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 登录节点,并进入节点证书目录。
节点sock文件挂载检查异常处理 检查项内容 检查节点上的Pod是否直接挂载docker/containerd.sock文件。升级过程中Docker/Containerd将会重启,宿主机sock文件发生变化,但是容器内的sock文件不会随之变化,二者不匹配,导致您的业务无法访问Doc
Dump信息无法写入到Core文件中。您可通过设置OBS的挂载参数umask=0077,将Core Dump文件正常存储到OBS中。设置umask的方法请参见设置挂载参数。 开启节点Core Dump 登录节点,执行如下命令开启Core Dump,设置core文件的存放路径及格式。
配置参数 参数名称 描述 示例 安全组策略名称 输入安全组策略名称。 请输入1-63个字符,以小写字母开头,由小写字母、数字、连接符(-)组成,且不能以连接符(-)结尾。 security-group 关联安全组 选中的安全组将绑定到选中的工作负载的弹性网卡/辅助弹性网卡上,在下拉框中最多可以选择5条,安全组必选,不可缺省。
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件存
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例。
true”annotation的容器网络配置即为默认容器网络配置。当集群中不存在默认容器网络配置时,未关联任何容器网络配置的Pod创建后由于无法分配到网卡而启动失败。 约束与限制 仅默认容器网络配置支持开启容器网卡动态预热。当节点的网卡配额耗尽时,使用自定义容器网络配置的Pod会尝试解绑默认
服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分配内存128M,在压测场景下,损耗非常大,最终导致请求失败。 目前压测所有流量都经过Proxy,业务量大就要加大分配资源。 解决方法 传文件涉及大量报文复制,会占用内
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub