检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
每次安装都会创建一个新的实例。以MySQL模板包为例,如果您想在集群中运行两个数据库,可以安装该模板包两次,每一个数据库都会拥有自己的release 和release name。 更多关于Helm命令的使用方法请参见使用Helm。 从Helm官方推荐的仓库Artifact Hub中查找模板包,并配置Helm仓库。
自定义告警规则的名称 CoreDNS内存使用率超过百分之八十 描述(可选) 添加告警规则描述。 检查CoreDNS容器内存使用率是否大于80%。 告警规则(PromQL) 输入普罗查询语句。关于如何编写普罗查询语句,请参见查询示例。 本例中设置CoreDNS当内存使用率的最大值大于80%产生告警,示例如下:
Kubernetes中没有代表普通账户的对象,这类账户默认由外部服务独立管理,比如在CCE的用户是由IAM管理的。 与Pod、ConfigMap类似,ServiceAccount是Kubernetes中的资源,属于命名空间级别。当创建一个新的命名空间时,系统会自动在其中生成一个名为default的ServiceAccount。
值以内,形成对CPU的限流。频繁的CPU限流会影响业务性能,增大业务长尾响应时延,对于时延敏感型业务的影响尤为明显。 CPU Burst提供了一种可以短暂突破CPU Limit值的弹性限流机制,以降低业务长尾响应时间。其原理是业务在每个CPU调度周期内使用的CPU配额有剩余时,系
实例Pod、容器Container、节点Node的关系 工作负载 工作负载是在Kubernetes上运行的应用程序。无论您的工作负载是单个组件还是协同工作的多个组件,您都可以在Kubernetes上的一组Pod中运行它。在Kubernetes中,工作负载是对一组Pod的抽象模型,用于描述业务的运行载体,包括De
实施步骤 集群外资源迁移 迁移工具安装 集群内资源迁移(Velero) 资源更新适配 其余工作 异常排查及解决 父主题: 将K8s集群迁移到CCE
工作负载参数配置实践 容器网络带宽限制的配置建议 使用hostAliases参数配置Pod的/etc/hosts文件 容器与节点时区同步 在CCE Turbo集群中配置Pod延时启动参数 工作负载安全实践 在CCE集群中使用容器的安全配置建议 在CCE集群中使用密钥Secret的安全配置建议 在CC
如下: %h:主机名(在 Pod 内即为 Pod 的名称),建议配置。 %e:程序文件名,建议配置。 %p:进程 ID,可选。 %t:coredump 的时间,可选。 即通过以上命令开启Core Dump后,生成的core文件的命名格式为“core.{主机名}.{程序文件名}.{进程ID}
Inheritable 集合上,这会导致在容器内的进程在以 Non-Root 用户 execve() 执行可执行文件时Inheritable和文件的Inheritable集合的交集被添加到执行完execve后的进程的Permited集合中,出现非预期的“越权“行为。需要说明的是,这个越权并没有突破 execve
是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新
String 指定日志上报LTS的地址,不填则读取basic中的地址 ltsEndpoint 否 String 指定LTS接口的地址,不填则读取basic中的地址 aomEndpoint 否 String 指定事件上报AOM的地址,不填则读取basic中的地址 projectID 是
单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存大小,算力
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
节点内Pod间通信:IPVlan子接口分配给节点上的Pod,因此同节点的Pod间通信可以直接通过IPVlan进行转发。 跨节点Pod间通信:所有跨节点Pod间的通信均根据VPC路由表中的路由先访问到默认网关,然后借助VPC的路由转发能力,将访问流量转发到另一个节点上的Pod。 Pod访问公网:集群内的容器在访问公网
搜索域:即dnsConfig字段中的searches参数,表示域名查询时的DNS搜索域列表,此属性是可选的。指定后,提供的搜索域列表将合并到基于dnsPolicy生成的域名解析文件的search字段中,并删除重复的域名。 启用hostAliases:配置Pod的本地配置文件“/etc/h
选择CCE推荐的GPU驱动版本列表中提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA Toolkit版本,必须使用非推荐的驱动版本,则需要您自行验证机型、系统及驱动版本间的配套兼容性。 CUDA Toolit版本 兼容性所需的最低驱动版本(Linux x86_64)
创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载 通过控制台可视化生成API参数
额值为0,则不限制该资源的使用。 配额累计使用量包含CCE系统默认创建的资源,如default命名空间下系统默认创建的kubernetes服务(该服务可通过后端kubectl工具查看)等,故建议命名空间下的资源配额略大于实际期望值以去除系统默认创建资源的影响。 在Kubernet
Token认证鉴权的方式上报三方监控平台。 Prometheus监控 Prometheus已经成为了当前云原生可观测性的最常见工具,其强大的监控能力和活跃的社区生态,使其成功CNCF最活跃的托管项目之一。当前CCE插件市场提供了云原生监控插件用于Kubernetes集群的监控。 华为云