检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段 在Kubernetes 1.25版本,StatefulSet的minReadySeco
表示这个容忍度与任意的key、value和effect都匹配,即这个容忍度能容忍任何污点。 如果effect为空但键名key已填写,则表示与所有键名key的效果相匹配。 关于Kubernetes容忍度的详细说明,请参见污点和容忍度。 因此,需要修改工作负载的yaml,还原tolerations为默认配置如下:
25引入了对kubelet所管理的新的Pod状况PodHasNetwork的Alpha支持, 该状况位于Pod的status字段中 。详情请参见Pod网络就绪。 应用滚动上线所用的两个特性进入稳定阶段 在Kubernetes 1.25版本,StatefulSet的minReadySeco
是否必选 参数类型 描述 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 表3
project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个
允许调度器将Pod调度至带有对应污点的节点上。 容忍度需要和节点污点相互配合,每个节点上都可以拥有一个或多个污点,对于未设置容忍度的Pod,调度器会根据节点上的污点效果进行选择性调度,可以用来避免Pod被分配到不合适的节点上。更多关于容忍度的使用示例请参见污点和容忍度。 污点可以指定多种效果,对应的容忍策略对Pod运行影响如下:
云原生监控插件在集群中运行需要消耗集群资源,请确保集群资源能够满足插件的安装。具体资源消耗可以前往“插件中心”云原生监控插件安装页面获取。 前提条件 开通监控中心前,用户需要使用具有admin用户组的账户完成对CCE及其依赖服务的委托授权。 授权方式:监控中心页面自动弹出“确认授权”页面,用户单击“
Scheduler是负责Pod调度的组件,它由一系列action和plugin组成。action定义了调度各环节中需要执行的动作;plugin根据不同场景提供了action 中算法的具体实现细节。Volcano Scheduler具有高度的可扩展性,您可以根据需要实现自己的action和plugin。
ter节点主要是处理调度构建作业,把构建分发到Agent实际执行,监视Agent的状态。业务构建发布的工作交给Agent进行,即执行Master分配的任务,并返回任务的进度和结果。 Jenkins的Master和Agent均可安装在虚拟机或容器中,且组合形式可多样,参见表1。 表1
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。
project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及
用来设定出于回滚目的所要保留的旧 ReplicaSet 数量。 这些旧 ReplicaSet 会消耗 etcd 中的资源,并占用 kubectl get rs 的输出。 每个 Deployment 修订版本的配置都存储在其 ReplicaSets 中;因此,一旦删除了旧的 ReplicaSet,
是对Kubernetes API的扩展,当默认的Kubernetes资源无法满足业务需求时,您可以通过CRD对象来定义新的资源类别。 根据CRD的定义,您可以在集群中创建自定义资源(Custom Resource,CR)来满足业务需求。 CRD允许用户创建新的资源类别的同时又不必添加新的Kubernetes
极速文件存储卷概述 CCE支持将极速文件存储(SFS Turbo)创建的存储卷挂载到容器的某一路径下,以满足数据持久化的需求,极速文件存储具有按需申请,快速供给,弹性扩展,方便灵活等特点,适用于DevOps、容器微服务、企业办公等应用场景。 图1 CCE挂载极速文件存储卷 使用说明
com/gpu资源的工作负载)。 在工作负载中声明nvidia.com/gpu资源(即配置nvidia.com/gpu为小数,例如0.5)时将通过虚拟化GPU提供,实现GPU显存隔离,按照设定值的百分比为容器分配GPU显存(例如分配0.5×16GiB=8GiB的GPU显存,该数值
创建有状态负载时,实例间发现服务是指什么? CCE容器拉取私有镜像时报错“Auth is empty” CCE集群中工作负载镜像的拉取策略有哪些? 鲲鹏集群Docker容器挂载点被卸载 下载镜像缺少层如何解决? 容器内的文件权限和用户都是问号 父主题: 工作负载
通过“创建节点”的“安装后执行脚本”功能,在节点创建完成后,执行命令加固节点。具体操作步骤参考创建节点的“云服务器高级设置”的“安装后执行脚本”。“安装后执行脚本”的内容需由用户提供。 通过CCE提供的“私有镜像制作”功能,制作私有镜像作为集群的工作节点镜像。用户按照指导,基于自己的安全加
业务上报nvidia版本和cuda版本不匹配? 容器中查看cuda的版本,执行如下命令: cat /usr/local/cuda/version.txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错
建议您在任何情况下设置CoreDNS副本数应至少为2,且副本数维持在一个合适的水位以承载整个集群的解析。CCE集群安装CoreDNS插件的默认实例数为2。 CoreDNS使用资源的规格与解析能力相关,修改CoreDNS副本数量、CPU/内存的大小会对影响解析性能,请经过评估后再做修改。 CoreDN