检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AI套件(NVIDIA GPU)插件配置节点的驱动文件路径,节点重启后会自动安装驱动。您也可以手动更新驱动的方式进行更新。 手动更新GPU节点的驱动版本为临时方案,适用于需要对某个节点进行差异化配置的场景,但节点重启后将自动重置为GPU插件配置中指定的版本。 如果需要稳定升级GPU节点驱
使用Jenkins和Gitlab实现多集群隔离的DevOps流程 方案概述 资源规划 实施步骤 父主题: DevOps
分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。详情请参见GPU虚拟化概述。 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。
群中需安装2.4.16及以上版本的Everest插件。 问题原因 cce_cluster_agency委托是CCE的系统委托,其中包含CCE组件需要的云服务资源操作权限,但不包含支付权限,详情请参见系统委托说明。在创建包周期的云硬盘存储卷时,要求包含支付权限,因此需要为cce_c
各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。本文介绍云容器引擎CCE可观测性架构分层和主要的可观测能力,以帮助您对CCE云原生可观测性生态有一个全面的认识。 图1 可观测性体系 从架构分层的角度,CCE可观测性分为四个层次。自下而
检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。 当前CCE不建议该类
ulSet)的主要区别是批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出(Pod自动删除)。 CronJob:是基于时间的Job,就类似于Linux系统的crontab文件中的一行,在指定的时间周期运行指定的Job。
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
9及后续版本,不再支持新的软件和补丁更新。CentOS用户现有业务随时面临宕机和安全风险,并无法确保及时恢复。 影响 基于CentOS官方的变更计划,对CentOS操作系统的使用者产生的影响如下所述: 2024年06月30日以后,CentOS 7的使用者将无法获得包括问题修复和功能更新在内的任何软件维护和支持。
问题建议 方案一:发布服务使用域名发现,需要提前预置好主机名和命名空间,服务发现使用域名的方式,注册的服务的域名为:服务名.命名空间.svc.cluster.local 。这种使用有限制,注册中心部署必须容器化部署。 方案二:容器部署使用主机网络部署,然后亲和到集群的某一个节点,
<镜像ID> 图2 有安全风险的镜像配置示例 漏洞修复方案 规避措施: 配置工作负载的WORKDIR为固定目录。 若未设置工作负载WORKDIR目录,需确保工作负载使用的容器镜像来源可信。 执行以上规避措施前前请评估对业务的影响,并进行充分测试。 修复方案: 当前CCE团队已修复该漏
VPC内的容器无法进行正常DNS解析的情况。 解决方案 由于本案例涉及的是内网域名解析,按照内网域名解析的规则,需要确保VPC内的子网DNS设置成的云上DNS,具体以内网DNS服务的控制台界面提示为准。 本案例的子网中已经完成该设置,其中用户可以在该VPC子网内的节点(ECS)进行域名解析,也说明已完成该设置,如下图:
原因一:创建节点池时使用的密钥对被删除。 原因二:用户使用私有密钥对创建节点池,而其他用户无法使用该私有密钥对创建节点,导致节点池扩容失败。 解决方案: 对于原因一引起的扩容失败,您可以创建一个新的密钥对,并使用该密钥对创建新的节点池。 对于原因二引起的扩容失败,该节点池只能通过私有密钥对的创建者
卷,于是跳过删底层卷的流程,直接开始删除PV,这样PVC和PV被成功删除,但是底层卷残留。关于此问题的逻辑代码请参见controller。 解决方案 对于已残留的底层存储,请通过手动删除的方式进行清理。 对于未删除的动态创建PVC,请直接删除PVC,其绑定的PV和底层存储会被自动删除,无需手动删除。
工作负载下的容器组 Pod 占用的磁盘空间设置上限(包含容器镜像占用的空间)。合理的配置可避免容器组无节制使用磁盘空间导致业务异常。建议此值不超过容器引擎空间的 80%。该参数与节点操作系统和容器存储Rootfs相关,部分场景下不支持设置。 更多关于容器存储空间分配的内容,请参考数据盘空间分配说明。
Code萃取丰富上云成功实践,提供一系列基于华为云可快速部署的解决方案,帮助用户降低上云门槛。同时开放完整源码,支持个性化配置,解决方案开箱即用,所见即所得。 表3 Solution as Code一键式部署类最佳实践汇总 一键式部署方案 说明 相关服务 应用容器化上云 该方案基于云容器引擎CCE服务构建,可帮助您快速实现业务系统的容器化改造。
伴随着互联网技术的不断发展,各大企业的系统越来越复杂,传统的系统架构越来越不能满足业务的需求,取而代之的是微服务架构。微服务是将复杂的应用切分为若干服务,每个服务均可以独立开发、部署和伸缩;微服务和容器组合使用,可进一步简化微服务的交付,提升应用的可靠性和可伸缩性。 随着微服务的大量应用
弹性网卡即虚拟网卡,您可以通过创建并配置弹性网卡,并将其附加到您的云服务器实例(包括弹性云服务器和裸金属服务器)上,实现灵活、高可用的网络方案配置。 弹性网卡类型 主弹性网卡:在创建云服务器实例时,随实例默认创建的弹性网卡称作主弹性网卡。主弹性网卡无法与实例进行解绑。 扩展弹性网
云容器引擎CCE如何定价/收费? CCE集群的计费方式如何由按需改为包年包月? CCE创建的节点是否支持按需转包周期? 华为云支持哪几种开具发票模式? CCE是否支持余额不足提醒? CCE是否支持账户余额变动提醒? 包周期的CCE集群到期可以直接删除吗? 如何退订我的云容器引擎? 集群冻结/解冻/释放常见问题
集群网络组件的NetworkPolicy开关检查 检查项内容 检查您集群网络组件的NetworkPolicy开关配置,如果您在集群Master节点上对NetworkPolicy开关进行过手动修改,那么升级过程中该配置会被刷新成默认值。 解决方案 根据诊断分析中的日志排查网络组件c