检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
25集群:v1.25.4-r0及以上 集群中已安装1.10.0及以上版本的Volcano插件。 约束与限制 开启云原生混部后,Volcano调度器会开启超卖插件oversubscription,使用云原生混部过程中请确保该插件处于启用状态。 混部agent以DaemonSet方式亲和部署在OS类型为Huawei
multiAZEnable 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiA
挂载、卸载、格式化等功能。 详情请参见everest 针对1.15及以上版本的集群,在创建时将默认安装CSI插件(everest)。CCE会跟随社区持续更新CSI插件的各种能力。 Flexvolume storage-driver Flexvolume插件是kubernetes社
解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operator生成配置出错,会导致所有组件无法正常启动。 日志信息如下: MountVolume.SetUp failed for volume "otel-collec
个缓存。默认为sharecache。 说明: 设置nosharecache禁用共享缓存会对性能产生一定影响。每次挂载都会重新获取挂载信息,会增加与NFS服务器的通信开销和NFS客户端的内存消耗,同时同客户端设置nosharecache存在cache不一致的风险。因此,应该根据具体
multiAZEnabled 否 bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiA
易用性:在应用备份和恢复阶段,已实现工具自动化。这些工具免安装,简单轻量且配置灵活。 多版本:支持在维版本的应用备份和恢复。版本策略详情请参阅Kubernetes版本策略。 无依赖:工具不需要任何外部依赖,可以独立运行。 多架构:工具支持在x86和ARM的Linux环境中运行。 不停机:过程无需停机,不影响集群内的业务。
ERROR(发生ECC故障的记录)。 Correctable Error:不会影响业务,不会触发GPU隔离。 Uncorrectable Error:会导致业务中断,会触发GPU隔离。 若存在Uncorrectable Error,可以尝试通过以下手段恢复: 配置目标节点污点(taints),驱逐目标节点存量的业务负载。
会生效。 设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。 表2 插件调度配置 参数 参数说明 多可用区部署 优先模式:优先将插件的Deployment实例调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。
创建Pod时,填写yangtse.io/eip-id的annotation后,EIP会随Pod自动完成绑定。 已有EIP绑定Pod后,系统会自动为该EIP添加集群ID、命名空间、Pod名称的标签。 当使用已有EIP的Pod被删除时,已有EIP会保留。系统会自动删除绑定EIP时添加的标签(集群ID、命名空间、Pod名称)。
PV回收策略用于指定删除PVC时,底层卷的回收策略,支持设定Delete、Retain回收策略。 Delete:删除PVC的动作会将PV对象从Kubernetes中移除,同时也会从外部基础设施中移除所关联的底层存储资产。 包周期的资源无法通过Delete回收策略进行级联删除。 Retain:当PVC对象被删除时,PV
kubectl get apiservice 如果没有FALSE状态的APIService,等一到两分钟training-operator负载会正常运行。 父主题: 在CCE集群中部署使用Kubeflow
高于100个节点,每增加100个节点(10000个Pod),建议CPU的申请值增加500m,内存的申请值增加1000Mi;CPU的限制值建议比申请值多1500m,内存的限制值建议比申请值多1000Mi。 申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表4中根据“集群节点数
为IAM子账号配置命名空间级别的权限 应用场景 在容器化环境中,不同团队和部门对资源的访问需求不尽相同。如果权限设置过于宽泛,可能会导致环境交叉占用、误操作和资源竞争等问题。为了解决这些问题,实现细粒度的权限控制尤为重要。 CCE权限管理是在统一身份认证服务(IAM)与Kuber
k8s.yaml:用于部署nginx应用,会创建一个名为nginx-test的Deployment,和一个名为nginx-test的Service。 以上文件仅为示例,您可以根据您的业务需求进行替换或修改。 设置全局变量 流水线运行过程中,会先Build镜像上传到SWR,然后执行k
解决方案。 资源冲突 问题现象 安装插件时,出现“内部错误”,错误码为CCE.03500001。 问题原因 出现“内部错误”时,错误信息内会提示具体的错误原因,如 ClusterRole \"gatekeeper-manager-role\" in namespace \"\" exists
脚本命令会进行Base64转码。安装前/后执行脚本统一计算字符,转码后的字符总数不能超过10240。 脚本将在Kubernetes软件安装前执行,可能导致Kubernetes软件无法正常安装,需谨慎使用。 安装后执行脚本 请输入脚本命令,命令中不能包含中文字符。脚本命令会进行Ba
点。 修改节点池系统盘/数据盘大小、数据盘空间分配则仅对新增节点生效,即使重置存量节点也无法同步配置。 修改资源标签、K8s标签和污点数据会根据“存量节点标签及污点”开关状态决定是否自动同步已有节点,无需重置节点。 单个节点同步 登录CCE控制台。 单击集群名称进入集群,在左侧选
ndots:5 timeout single-request-reopen 在Pod中访问nginx Pod的ServiceName:Port,会先从CoreDNS中解析出nginx Service的IP地址,然后再访问nginx Service的IP地址,从而访问到nginx Pod。
os.version=3.10.0-862.14.1.5.h328.eulerosv2r7.x86_64 这些标签都是在创建节点的时候CCE会自动添加上的,下面介绍几个在调度中会用到比较多的标签。 failure-domain.beta.kubernetes.io/region:表