检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包周期的CCE集群到期可以直接删除吗? CCE集群包周期到期后,您可以在备份好所有数据的情况下直接删除该集群。 如果到期后您仍没有续费或删除,系统会根据资源到期时间删除该集群,请及时续费并做好数据备份工作。 父主题: 计费类
集群里移除后将其重新添加到节点池,您可以通过纳管节点实现以上诉求。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时清理LVM信息,包括卷组(VG)、逻辑卷(LV)、物理卷(PV),请确保信息已备份。
CCE挂载文件存储卷 使用说明 符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 容量与性能:单文件系统容量较高(PB级),性能极佳(IO读写时延ms级)。
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。 执行rpm
Warning NodeNotReady 17s node-controller Node is not ready 问题原因 节点关机后,系统会自动给节点添加污点,比如: node.kubernetes.io/unreachable:NoExecute node.cloudprovider
CLOSE_WAIT 状态的空闲 conntrack 条目在 conntrack 表中保留的时间 配置建议: 不建议配置 系统中最大的连接跟踪表项数目 系统中最大的连接跟踪表项数目 参数名 取值范围 默认值 是否允许修改 作用范围 conntrack-min 大于等于0 131072
检查节点内存使用量是否超过90%。 18 节点时钟同步服务器检查异常处理 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 19 节点OS检查异常处理 检查节点操作系统内核版本是否为CCE支持的版本。 20 节点CPU数量检查异常处理 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。
其他:若需要创建其他自定义类型的密钥,可手动输入密钥类型。 无 允许 - 镜像仓库凭据、负载均衡证书等常见密钥应用场景存在相应的分类,系统会对此类型密钥的数据进行基本的格式校验,无明确分类的密钥可选择一般密钥类型 配置建议: 应用场景明确的密钥建议优先指定为相应密钥类型 父主题:
鲲鹏集群Docker容器挂载点被卸载 故障现象 鲲鹏集群Docker容器挂载点被卸载。 问题根因 鲲鹏集群节点为EulerOS 2.8系统时,如果在Docker服务文件中配置了MountFlags=shared字段,会因为systemd特性的原因导致容器挂载点被卸载。 解决方法
安装Spark 前提条件 您需要准备一台可访问公网的Linux机器,节点规格建议为4U8G及以上。 配置JDK 以CentOS系统为例,安装JDK 1.8。 查询可用的JDK版本。 yum -y list java* 选择安装JDK 1.8。 yum install -y java-1
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
s和Worker可以利用本机网络提供传输效率,缩短训练时间。 Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、
CVE-2024-47175 CVE-2024-47176 CVE-2024-47177 严重 2024-09-26 漏洞影响 该漏洞主要影响运行 CUPS 打印系统的 Unix 设备,若同时启用了 cups-browsed 服务,可能面临被远程攻击的风险,从而危及用户设备的安全。 判断方法 您可以在节
将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus Agent视图暴露的指标如下: 图1 Prometheus Agent资源指标 表1 Prometheus
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Prometh
EulerOS 2.0、Ubuntu 22.04、EulerOS 2.9、EulerOS 2.10操作系统,相关团队和CCE已修复该问题,请关注操作系统镜像版本说明。 在发布修复的OS镜像后,新建集群、节点默认修复该漏洞,存量节点可通过重置节点修复。若集群版本已经EOS,需先升级集群版本。
如何驱逐节点上的所有Pod? 您可使用kubectl drain命令从节点安全地逐出所有Pod。 默认情况下,kubectl drain命令会保留某些系统级Pod不被驱逐,例如everest-csi-driver。 使用kubectl连接集群。 查看集群中的节点。 kubectl get node
Seccomp是一种系统调用过滤机制,它能够限制进程能够使用的系统调用,从而减少潜在的攻击面。Linux操作系统提供了数百个系统调用,但并非所有这些调用对于容器化应用都是必需的。通过限制容器可以执行的系统调用,您可以显著降低应用程序受到攻击的风险。 Seccomp的核心原理是拦截所有系统调用,