检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
几个辅助容器(SideCar Container),如图1所示,例如主容器为一个web服务器,从一个固定目录下对外提供文件服务,而辅助容器周期性的从外部下载文件存到这个固定目录下。 图1 Pod 实际使用中很少直接创建Pod,而是使用Kubernetes中称为Controller
配置项导入:选择一个配置项,将配置项中所有键值都导入为环境变量。 配置项键值导入:将配置项中某个键的值导入作为某个环境变量的值。 变量名称:工作负载中的环境变量名称,可自定义,默认为配置项中选择的键名。 变量/变量引用:选择一个配置项及需要导入的键名,将其对应的值导入为工作负载环境变量。
ey为文件名, value为文件内容的密钥文件。 数据存储挂载到容器上的路径。请不要挂载在系统目录下,如“/”、“/var/run”等,会导致容器异常。建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知:
为什么修改子网DNS配置后,无法解析租户区域名? 问题描述 用户集群子网DNS配置,增加了DNS服务器配置,如114.114.114.114,该域名无法解析租户区域名。 根因分析 CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导
非常多,像Flannel、Calico等。针对Kubernetes网络,CCE为不同网络模型的集群提供不同的网络插件实现,用于负责集群内网络通信。 Kubernetes虽然不负责搭建网络模型,但要求集群网络满足以下要求: Pod能够互相通信,且Pod必须通过非NAT网络连接,即收
S中创建了一个文件存储,这个文件存储ID为68e4a4fd-d759-444b-8265-20dc66c8c502,挂载地址为sfs-nas01.cn-north-4b.myhuaweicloud.com:/share-96314776。如果想在CCE中使用这个文件存储,则需要先创建一个PV来描述这个存储,如下所示。
节点ARP表项超过限制 问题现象 ARP缓存超限,容器网络的访问出现异常,例如coredns域名解析概率失败。 问题根因 出现该问题的原因是节点上容器缓存的ARP表项超过限制。 问题定位 在节点操作系统内核为4.3以上时,dmsg日志中会有显性的打印neighbor table
访问,但是VPC网络模型下容器网段与VPC网段不同,需要特殊处理,将容器网段加入到白名单中。 容器访问内网不通的定位方法 如前所述,从容器中访问内部网络不通的情况可以按如下路径排查: 查看要访问的对端服务器安全组规则,确认是否允许容器访问。 容器隧道网络模型需要放通容器所在节点的IP地址
检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有重启导致,需要登录节点手动重启cce-agent。 解决方式:登录节点执行: systemctl
在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
池。 原因二:Pod创建失败 参考工作负载状态异常定位方法解决创建失败的问题。 插件资源不存在 问题现象 更新或升级插件时,提示更新失败,报 404 错误。 问题原因 插件相关资源查询异常,无法直接更新或升级,可能由于相关资源被手工修改或删除导致。 解决方案 请先卸载该组件,然后重新安装最新版本。
括OBS并行文件系统(优先)和OBS对象桶。 仅支持挂载同一区域下的第三方租户的并行文件系统和对象桶。 商用 4 CCE集成华为云容器安全服务(CGS) CCE集成华为云容器安全服务(CGS),容器安全服务能够扫描镜像中的漏洞与配置信息,帮助企业解决传统安全软件无法感知容器环境的
信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。 更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm -rf
PodUID如何与社区client-go兼容? 创建存储卷失败如何解决? CCE容器云存储PVC能否感知底层存储故障? 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 无法使用kubectl命令删除PV或PVC 删除挂载了云存储的Pod时提示target is busy 无法自动创建包周期的云硬盘存储卷
启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入存储卷的子路径,将存储卷中的某个路径挂载至容器,可以实现在单一Pod中使用同一个存储卷的不同文件夹。如:
已存在的文件的日志非运行日志,属于无效日志无法采集。该问题为社区已知问题,详情请参见开源issue。 解决方案:若需要采集打包镜像时已经存在于镜像中的日志文件,建议添加在创建工作负载时,设置“生命周期>启动后命令”,在工作负载Pod启动前,先删除原来日志文件,使日志文件重新生成。
能连接到集群,需要检查kubectl到集群Master节点的网络是否能够连通。 解决方法 如果是在集群外部执行kubectl,请检查集群是否绑定公网IP,如已绑定,请重新下载kubeconfig文件配置,然后重新执行kubectl命令。 如果是在集群内节点上执行kubectl,请
/etc/docker/daemon.json 如您对这些文件的某些参数进行修改,有可能会导致集群升级失败或升级之后业务出现异常。如您确认该修改对业务无影响,可单击确认后继续进行升级操作。 CCE采用标准镜像的脚本进行节点配置一致性检查,如您使用其它自定义镜像有可能导致检查失败。 当前可预期的修改将不会进行拦截,可预期修改的参数列表如下:
检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查