检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
available on the Linux driver download page at www.nvidia.com. 可执行以下步骤进行解决: 执行命令禁用kubelet和containerd运行时服务: 禁用服务(containerd运行时) systemctl disable
xtendParam字段中DockerLVMConfigOverride.diskType参数设置为evs,C7机型的节点会创建失败)。 解决方案 本文对节点创建中storage字段进行详细的解释说明,方便用户通过创建节点API实现较为复杂的磁盘选择与功能划分。 storage字
or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,应用于AI、大数据等多任务协作场景。 启用组调度(Gang)后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 异构资源调度(Volcano调度器支持)
restore get语句查看应用恢复情况。 恢复完成后查看应用实例是否正常运行,可能存在其他的更新适配问题,请参考资源更新适配中的步骤排查解决。 父主题: 实施步骤
部署 可能会导致CCE集群功能异常或安装在节点上的Kubernetes组件异常,节点状态变成不可用,无法部署应用到此节点。 详情参见高危操作及解决方案。 反例: 用户升级了节点内核,可能会导致容器网络异常; 用户在节点上安装了开源的Kubernetes网络插件,导致容器网络异常; 用
提供商用级容器集群服务,并完全兼容开源 Kubernetes 集群标准功能。 CCE Standard集群为您提供简单、低成本、高可用的解决方案,无需管理和运维控制节点,并且可根据业务场景选择使用容器隧道网络模型或VPC网络模型,适合对性能和规模没有特殊要求的通用场景。 CCE
rs旁边的Expand,查找Gitlab Runner注册URL和Token,如下图所示。 创建values.yaml文件,填写如下信息。 # 注册URL gitlabUrl: https://gitlab.com/ # 注册token runnerRegistrationToken:
SNI:当监听器端口启用HTTPS/TLS时,可以选择是否添加SNI证书。如果需要添加SNI证书,则证书中必须包含域名。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 如果无法根据客户端请求的域名查找到域名对应的SNI证书,则默认返回服务器证书。 安全策略:当监听器端口启用HTTPS/
规则,请注意如下端口需要放通。 表8 Node节点安全组出方向规则最小范围 端口 放通地址段 说明 UDP:53 子网的DNS服务器 用于域名解析。 UDP:4789(仅容器隧道网络模型的集群需要) 所有IP地址 容器间网络互访。 TCP:5443 Master节点网段 Mast
ResolvConfFileProblem 检查ResolvConf配置文件是否丢失 检查ResolvConf配置文件是否异常 异常定义:不包含任何上游域名解析服务器(nameserver)。 检查对象:/etc/resolv.conf 存在计划事件 ScheduledEvent 检查节点是否
容器网络:为集群内容器分配IP地址,负责容器的通信,当前支持多种容器网络模型,不同模型有不同的工作机制。 服务网络:服务(Service)是用来解决访问容器的Kubernetes对象,每个Service都有一个固定的IP地址。 在创建集群时,您需要为各个网络选择合适的网段,确保各网段之
prometheus-adapter -n monitoring 修改prometheus-url参数值如下: HTTPS协议修改为HTTP协议。 默认域名修改为Prometheus Service的IP和端口,可通过kubectl get service -n monitoring命令查询。
[镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,2中登录指令末尾的域名即为镜像仓库地址。 [组织名称]:请替换为1中创建的组织。 [镜像名称2:版本名称2]:请替换为SWR镜像仓库中需要显示的镜像名称和镜像版本。
负载均衡实例。 容器端口:指容器中工作负载启动监听的端口。端口根据每个业务的不同而不同,一般在容器镜像中已指定。 服务端口:代表负载均衡上注册的对外端口,请填写1-65535之间的整数值。外部用户使用“ELB的VIP:服务端口”访问工作负载。 DNAT网关 NAT网关提供网络地址
启用集群可观测能力 可观测性是保障集群可靠性、稳定性的基础,借助监控、告警和日志,集群管理员可以更好地理解集群的运行状况,快速发现异常并及时解决问题。 配置监控 通过控制台的集群总览页面查看控制节点监控信息。 图1 查看控制节点监控 使用Prometheus监控Master节点组件
后续操作:释放资源 如果您在完成实践后不需要继续使用集群,请及时清理资源以免产生额外扣费。 准备工作 在开始操作前,请您先注册华为账号并完成实名认证,详情请参见注册华为账号并开通华为云和个人实名认证。 请您保证账户有足够的资金,以免创建集群失败,具体操作请参见账户充值。 步骤一:首次开通CCE并进行授权
提供商用级容器集群服务,并完全兼容开源 Kubernetes 集群标准功能。 CCE Standard集群为您提供简单、低成本、高可用的解决方案,无需管理和运维控制节点,并且可根据业务场景选择使用容器隧道网络模型或VPC网络模型,适合对性能和规模没有特殊要求的通用场景。 发布区域:全部
自建Kubernetes集群 云容器引擎 易用性 自建Kubernetes集群管理基础设施通常涉及安装、操作、扩展自己的集群管理软件、配置管理系统和监控解决方案,管理复杂。每次升级集群的过程都是巨大的调整,带来繁重的运维负担。 简化集群管理,简单易用 借助云容器引擎,您可以一键创建和升级Kub
create -f xxx.yaml。 步骤1:部署两个版本的服务 在集群中部署两个版本的Nginx服务,并通过Nginx Ingress对外提供七层域名访问。 创建第一个版本的Deployment和Service,本文以old-nginx为例。YAML示例如下: apiVersion: apps/v1
率。所有集群版本均可安装。 云原生监控插件:该插件支持v1.17及以后的集群版本。 根据基础资源指标进行弹性伸缩:需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 根据自定义指标进行弹性伸缩:需要将自定义指标聚合到Kubernetes