检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器处于异常、负载下实例没有正常运行时显示此状态。 处理中 负载没有进入运行状态但也没有报错时显示此状态。 可用 当多实例无状态工作负载运行过程中部分实例异常,可用实例不为0,工作负载会处于可用状态。 执行完成 任务执行完成,仅普通任务存在该状态。 已停止 触发停止操作后,工作负载会处于停止状态,实例数变为0。v1
告警中心FAQ 如何停止接收告警? 在“告警中心 > 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么?
排查项七:内部组件是否正常 登录不可用节点对应的弹性云服务器。 执行以下命令判断paas组件是否正常。 systemctl status kubelet 执行成功,可查看到各组件的状态为Active,如下图: 若服务的组件状态不是Active,执行如下命令: 重启命令根据出错组件指定,如cana
正在或即将进行其他运维任务,例如Master节点3AZ改造等。 集群中存在容器引擎为Docker但OS与节点池配置不同的节点,您可以重置这部分节点后再次执行升级前检查。 请根据界面日志联系技术支持人员了解限制原因并申请解除升级限制。 父主题: 升级前检查异常问题排查
在EVS控制台扩容成功后,仅扩大了云硬盘的存储容量,还需要执行后续步骤扩容分区和文件系统。 登录节点,执行命令growpart,检查当前系统是否已安装growpart扩容工具。 若回显为工具使用介绍,则表示已安装,无需重复安装。若未安装growpart扩容工具,可执行以下命令安装。 yum install
如何设置容器umask值? 问题描述 tailf /dev/null的方式启动容器,然后手动执行启动脚本的方式得到的目录的权限是700,而不加tailf由Kubernetes自行启动的方式得到的目录权限却是751。 解决方案 这个问题是因为两种方式设置的umask值不一样,所以创建出来的目录权限不相同。
工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题 工作负载状态正常但未正常工作
该问题是由于cce-agent没有重启导致,需要登录节点手动重启cce-agent。 解决方式:登录节点执行: systemctl restart cce-agent 执行完毕后,重新执行升级检查。 问题场景二: 错误信息为“your cce-agent is not the latest
t 容器运行完成时,Pod中的应用容器才会启动并运行。详细说明请参见Init 容器。 生命周期(可选):在容器的生命周期的特定阶段配置需要执行的操作,例如启动命令、启动后处理和停止前处理,详情请参见设置容器生命周期。 健康检查(可选):根据需求选择是否设置存活探针、就绪探针及启动探针,详情请参见设置容器健康检查。
yaml的apiVersion从v1切换到v2,针对Helm v2的chart.yaml,强要求指定apiVersion为v1。可安装Helm v3客户端后,通过执行helm lint命令校验模板格式是否符合v3规范。 适配方案:根据Helm官方文档 https://helm.sh/docs/topics/charts/适配Helm
节点迁移流程 约束与限制 现有节点和工作负载待迁移的节点必须在同一集群。 当前仅支持在Kubernetes v1.13.10及以后集群版本执行此操作。 默认节点池DefaultPool不支持修改配置。 原有节点在默认节点池 创建新的节点池。具体请参见创建节点池。 单击节点池名称,
集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。
如何修复出现故障的容器网卡? 节点无法连接互联网(公网),如何排查定位? 如何解决VPC网段与容器网络冲突的问题? ELB四层健康检查导致java报错:Connection reset by peer Service事件:Have no node to bind,如何排查? 为什么登录虚拟机VNC界面会间歇性出现Dead
检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索框内输入集群名称,此时预期过滤出两个安全组:
Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volcano插件,详情请参见Volcano调度器。
CPU管理策略 使用场景 默认情况下,kubelet使用CFS 配额来执行Pod的CPU约束。 当节点上运行了很多CPU密集的Pod时,工作负载可能会迁移到不同的CPU核, 这取决于调度时Pod是否被扼制,以及哪些CPU核是可用的。许多应用对这种迁移不敏感,因此无需任何干预即可正
公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 创建存储卷失败如何解决? CCE容器云存储PVC能否感知底层存储故障? 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 无法使用kubectl命令删除PV或PVC
件。 问题场景一:Master节点磁盘使用量不满足升级要求 请联系技术支持人员排查处理。 问题场景二:用户节点磁盘使用量不满足升级要求 请执行以下检查命令,检查当前各关键磁盘的空间使用情况,删除整理确保各可用空间满足要求后,重试检查。 docker容器运行时磁盘分区(可用空间需满足1G)
删除集群不会删除集群下包周期的资源,相关资源在集群删除后将会继续计费,请妥善处理。 删除集群会删除集群下工作负载与服务,相关业务将无法恢复。在执行操作前,请确保相关数据已完成备份或者迁移。 如果在删除集群时选择同步删除节点,将会同步删除节点挂载的系统盘和数据盘,请提前做好数据备份。
Liu和Jamie Hill-Daniel发现Linux内核中包含一个整数溢出漏洞,可导致写操作越界。本地攻击者可以使用这一点导致拒绝服务(系统崩溃)或执行任意代码,在容器场景下拥有CAP_SYS_ADMIN权限的用户可导致容器逃逸到宿主机。目前已存在poc,但尚未发现已公开的利用代码。 表1