检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
server是一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储。 高效:平均每个采样点仅占 3.5 bytes,且一个Prometheus server可以处理数百万的metrics。 使用pull模式采集时间序列数据,这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的metrics。
* 节点类型 请根据不同的业务诉求选择节点类型,“节点规格”列表中将自动为您筛选该类型下可部署容器服务的规格,供您进一步选择。 本例中选择“弹性云服务器-虚拟机”,使用ECS弹性云服务器作为集群节点。 * 节点规格 请根据业务需求选择相应的节点规格。不同的节点规格差别请参见节点规格。
ginx的配置文件(nginx.conf)中。 内置的Nginx组件进行reload,加载更新后的配置文件,完成Nginx转发规则的修改和更新。 在流量访问集群时,首先被已创建的负载均衡实例转发到集群内部的Nginx组件,然后Nginx组件再根据转发规则将其转发至对应的各个工作负载。
允许所有IP访问:不设置访问控制。 白名单:仅所选IP地址组可以访问ELB地址。 黑名单:所选IP地址组无法访问ELB地址。 前端协议:“HTTP” 对外端口:80 高级配置: 访问控制:黑名单 转发策略配置 域名:实际访问的域名地址,不配置时可通过IP地址访问Ingress。请确保所填写的域名已注册并备案,一旦配置了域名规则后,必须使用域名访问。
集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。 节点池自定义驱动:若您不希望集群中的所有GPU节点使用相同的驱动,CCE支持以节点池为单位安装不同的GPU驱动。配置节点池自定义驱
式,能够大幅提升容器的交付效率。 若您的自建镜像仓库为Harbor 1.10.5以上版本,则Harbor中集成了与华为云SWR的对接,只需要填写相关参数即可进行迁移,具体操作请参考跨云Harbor同步镜像至华为云SWR。否则,您可以按以下操作手动完成容器镜像的迁移。 远程登录原集群中任意一个节点,使用docker
Ingress对多个应用进行弹性伸缩 在实际的生产环境中,应用多实例部署可以提高应用的稳定性和可靠性,但也会增加资源的浪费和成本。因此,在进行多实例部署时,需要权衡资源利用率和应用性能之间的平衡,但手动调节实例数量存在伸缩不及时的问题,难以达到最佳的效果。 如果该应用使用Nginx Ingress实现对外的流量路由
Controller内核参数进行优化。 优化后的value.yaml配置文件如下: controller: image: repository: swr.cn-east-3.myhuaweicloud.com/hwofficial/nginx-ingress #controller镜像地址,请根据集群所在区域进行替换
skippedCheckItemListResponse objects 跳过检查的项目列表 表5 skippedCheckItemListResponse 参数 参数类型 描述 name String 跳过检查的项目名称 resourceSelector resourceSelectorResponse
default type: IngressTLS 此处tls.crt和tls.key为示例,请获取真实的证书和密钥进行替换。tls.crt和tls.key的值为Base64编码后的内容。 创建密钥。 kubectl create -f ingress-test-secret.yaml
[镜像名称1:版本名称1] [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,2中登录指令末尾的域名即为镜像仓库地址。 [组织名称]:请替换为1中创建的组织。 [镜像名称
通过ELB健康检查设置Pod就绪状态 Pod的就绪状态可与挂载到ELB后端的健康检查联动,在健康检查成功后,将Pod置为就绪。与Pod的strategy.rollingUpdate.maxSurge和strategy.rollingUpdate.maxUnavailable参数配合,可实现负载的优雅滚动升级。
String 插件的版本 driver_version 是 String 插件安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时,该值为GPU的驱动地址 swr_addr
指Node节点,Node节点是集群的计算节点,即运行容器化应用的节点。 在云容器引擎CCE中,主要采用高性能的弹性云服务器ECS或裸金属服务器BMS作为节点来构建高可用的Kubernetes集群。 支持的节点规格 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售
您可以执行以下步骤清理未使用的镜像: 使用containerd容器引擎的节点: 查看节点上的本地镜像。 crictl images -v 确认镜像无需使用,并通过镜像ID删除无需使用的镜像。 crictl rmi {镜像ID} 使用docker容器引擎的节点: 查看节点上的本地镜像。 docker
当Pod的Annotations配置符合Prometheus采集规范的规则后,Prometheus会自动采集这些Pod暴露的指标。 如上所述的nginx:exporter提供的监控数据,其数据格式并不满足Prometheus的要求,需要将其转换成Prometheus需要的格式,可
er与聚合API server的网络直接连通,攻击者就可以利用这个漏洞向聚合API服务器发送任何API请求; 如果集群开启了匿名用户访问的权限,则匿名用户也利用这个漏洞。不幸的是Kubernetes默认允许匿名访问,即kube-apiserver的启动参数”-- anonymou
19版本。 最新版本的集群修复了已知的漏洞或者拥有更完善的安全防护机制,新建集群时推荐选择使用最新版本的集群。在集群版本停止提供服务前,请及时升级到新版本。 及时跟踪处理官网发布的漏洞 CCE服务会不定期发布涉及的漏洞,用户需及时关注和处理,参见漏洞公告。 关闭default的servic
CustomedHPA策略是自研的弹性伸缩增强能力,能够基于指标(CPU利用率、内存利用率)或周期(每天、每周、每月或每年的具体时间点),对无状态工作负载进行弹性扩缩容。 主要功能如下: 支持按照当前实例数的百分比进行扩缩容。 支持设置一次扩缩容的最小步长。 支持按照实际指标值执行不同的扩缩容动作。