检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
集群基本信息 Kubernetes是一个开源的容器编排引擎,可用于容器化应用的自动化部署、 扩缩和管理。 对应用开发者而言,可以把Kubernetes看成一个集群操作系统。Kubernetes提供服务发现、伸缩、负载均衡、自愈甚至选举等功能,让开发者从基础设施相关配置中解脱出来。
ingress.kubernetes.io/upstream-hash-by: "$request_uri$host"代表按照请求uri和域名进行hash。 nginx.ingress.kubernetes.io/upstream-hash-by: "${request_uri}
es中几乎所有资源都可以用Label来组织。 Label的具体形式是key-value的标记对,可以在创建资源的时候设置,也可以在后期添加和修改。 以Pod为例,当Pod变得多起来后,就显得杂乱且难以管理,如下图所示。 图1 没有分类组织的Pod 如果我们为Pod打上不同标签,那情况就完全不同了,如下图所示。
服务器证书:使用HTTPS协议时需要选择一个服务器证书。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 SNI:选择添加SNI证书,证书中必须包含域名。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 高级配置:单击“添加自定义容器网络配置”,选择“开启HTTP/2”,并将状态设置为“开启”。
通过负载均衡配置实现会话保持 概念 会话保持可以确保用户在访问应用时的连续性和一致性。如果在客户端和服务器之间部署了负载均衡设备,很有可能这多个连接会被转发至不同的服务器进行处理。开启会话保持后,负载均衡会把来自同一客户端的访问请求持续分发到同一台后端云服务器上进行处理。 例如在
UUID=%s, SN=%s, the device will go unhealthy. GPU设备存在Xid错误,Xid捕获范围为74和79 隔离单点故障的GPU设备 GPUHealthWarning Device=%s, UUID=%s, SN=%s failed to get
el会非常多,有时候会有重叠,而且每次查询之类的动作都带一堆Label非常不方便。Kubernetes提供了Namespace来做资源组织和划分,使用多Namespace可以将包含很多组件的系统分成不同的组。Namespace也可以用来做多租户划分,这样多个团队可以共用一个集群,使用的资源用Namespace划分开。
应用往往都是由多个运行相同镜像的一组Pod组成,逐个访问Pod也变得不现实。 举个例子,假设有这样一个应用程序,使用Deployment创建了前台和后台,前台会调用后台做一些计算处理,如图1所示。后台运行了3个Pod,这些Pod是相互独立且可被替换的,当Pod出现状况被重建时,新建的Po
io,且配置SWR镜像仓库为替代镜像仓库。 镜像仓库需要是IP地址或域名,替代的镜像仓库需要是http://或者https://开头的IP地址或域名。 建议添加本地镜像仓库以提高镜像拉取速度。 使用多个镜像仓库以提高容错能力和可用性。 v1.23.17-r0、v1.25.12-r0、v1
kill 12192 # sudo fuser -v /dev/nvidia* #再次确认是否有程序正在使用GPU卡设备 节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE
对于此类问题,您需要添加容器和节点网段到白名单。具体白名单的设置步骤,请在对应服务的帮助文档中查找。 域名解析 当访问外部域名时,Pod先使用集群的域名解析功能解析被访问目标的地址,后经过Pod侧的网络策略再进行访问,此时可能出现域名无法解析的情况,常见的报错有: Name or service
使用VPC和云专线实现容器与IDC之间的网络通信 使用场景 借助VPC和云专线,在VPC网络模型的集群中实现集群容器网段(172.56.0.0/16)与IDC网段(10.1.123.0/24)的相互通信。 图1 网络示意 表1 地址信息 网络 网段 用户侧IDC网络 10.1.123
根据提示信息完成注册,详细操作请参见如何注册华为云管理控制台的用户?。 注册成功后,系统会自动跳转至您的个人信息界面。 参考实名认证完成个人或企业账号实名认证。 为账户充值 您需要确保账户有足够金额,关于云容器引擎价格请参见价格说明。 创建IAM用户 如果您需要多用户协同操作管理您账号
增强的配置管理:节点池进一步增强了Kubernetes参数的自定义配置能力,提供了更多的选项和指导,以满足对容器化应用管理的复杂需求。 新版节点池有什么变化? 新版节点池中的包周期节点不再支持手动缩容,仅支持退订和移除。 弹性伸缩默认扩缩容的节点为按需节点,不会缩容包周期节点。 不再支持通过更新
使用更加简单和灵活的架构,移除了 tiller,直接通过kubeconfig连接apiserver,简化安全模块,降低了用户的使用壁垒。 改进了升级策略,采用三路策略合并补丁 Helm v2 使用双路策略合并补丁。在升级过程中,会对比最近一次发布的chart manifest和本次发布的chart
ageClass),即可自动创建对象存储和对应的PV对象。 在有状态负载中动态挂载本地持久卷:仅有状态工作负载支持,可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。适用于多实例的有状态工作负载。 本地持久卷不支持通过静态
PV与PVC Kubernetes抽象了PV(PersistentVolume)和PVC(PersistentVolumeClaim)来定义和使用存储,从而让使用者不用关心具体的基础设施,当需要存储资源的时候,只要像CPU和内存一样,声明要多少即可。 PV:PV是PersistentVolu
SDK等)的一次上传共享多读(ReadOnlyMany)的各种工作负载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 对象存储规格 对象存储提供了多种存
重复存储和冗余传输,同时确保数据的最新性和合规性,从而提升整体的业务效率和安全性。 操作流程 假设账号B在某种情况下需要访问和使用账号A的某个OBS桶,具体操作流程请参见图1和表1。 图1 跨账号挂载对象存储 表1 操作流程说明 操作流程 说明 步骤一:创建OBS桶策略和桶ACL