检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
时,GC将会清空大于5秒的表项。请勿修改。 gc_thresh3:最大可允许的非永久表项数量。如果系统拥有庞大的接口数量,或者直连了大量的设备,应增大此值。 查看参数: sysctl net.ipv4.neigh.default.gc_thresh1 sysctl net.ipv4
8-r0", "csi_attacher_detach_worker_threads" : "60", "csi_attacher_worker_threads" : "60", "default_vpc_id" : "******",
例如,假设节点可挂载的云硬盘上限为20,除去节点上已挂载的1块系统盘和1块数据盘后,节点剩余可挂载的云硬盘数量为18块。若该节点通过ECS控制台自定义挂载了2块裸盘用于创建本地存储池,则实际上仅能挂载16块数据盘。该场景下,如果该节点上调度18个挂载1块云硬盘的工作负载实例,就会出
CCE是否支持nginx-ingress? nginx-ingress简介 nginx-ingress是比较热门的ingress-controller,作为反向代理将外部流量导入到集群内部,将Kubernetes内部的Service暴露给外部,在Ingress对象中通过域名匹配S
在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 数据存储配置:必选本地数据存储,可选监控数据是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。
统计集群成本。 灵活的成本分摊策略:支持集群、命名空间、节点池、应用等多种维度的成本可视化与成本分摊策略。 支持长期的成本数据存储与检索:最大支持长达2年的成本分析。 分钟级负载计费,轻松应对快速弹性场景:针对应用快速弹性场景,支持分钟级的负载发现与计费能力,让所有成本无一遗漏。
的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据(至少一周,至多八周),利用统计学原理分析建模。随后每分钟一次,根据当前时间点的历史监控数据,结合未来一段时间窗口的历史数据,给出当前时间点工作负载的推荐副本数,提前准备Pod应对即将到来的业务量上涨,保障资源供给。
支持从 CES 同步监控指标数据,因此需要获得该权限。 AOM CCE FullAccess AOM 支持从 CCE 同步容器监控指标数据,因此需要获得访问权限。 AOM RMS ReadOnlyAccess AOM 的 CMDB 支持管理云服务实例数据,因此需要获得该权限。 AOM
和持久性,为海量的小文件、低延迟高IOPS型应用提供有力支持。 符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。 数据共享:多台服务器可挂载相同的文件系统,数据可以共享操作和访问。 私有网络:数据访问必须在数据中心内部网络中。 安全隔离:直接使用云上现有
3-r0", "csi_attacher_detach_worker_threads" : "60", "csi_attacher_worker_threads" : "60", "default_vpc_id" : "******",
or Authorization.\"}]}" 解答 您可以通过CCE控制台界面选择私有镜像创建应用,此时CCE会自动带上该secret,升级时不会出现该问题。 您通过API创建应用时,在deployment中带入该secret也可以在升级时避免该问题。 imagePullSecrets:
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1
您可以使用镜像快速创建一个可公网访问的单实例工作负载。本章节将指导您基于云容器引擎CCE快速部署Nginx容器应用,并管理该容器应用的全生命周期,以期让您具备将云容器引擎应用到实际项目中的能力。 前提条件 您需要创建一个至少包含一个4核8G节点的集群,且该节点已绑定弹性IP。 集群
的告警规则基于华为云容器团队大规模集群运维经验,能够满足您的日常运维所需,覆盖容器服务异常事件告警、集群相关基础资源的关键指标告警及集群中应用的指标告警。 约束与限制 集群版本仅支持v1.17及以上。 仅华为云/华为账号,或者拥有CCE Administrator权限或CCE F
建议选择按需计费。 虚拟机节点类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:EulerOS 2.9 系统盘:50GiB | 通用型SSD 数据盘:100GiB | 通用型SSD 1 1.0015元/小时 云硬盘EVS 建议选择按需计费。 云硬盘规格:100G 云硬盘类型:通用型SSD
ion的更新请求到达apiserver,服务器端将对比请求数据与服务器中数据的资源版本号,如果不一致,则表明在本次更新提交时,服务端对象已被修改,此时apiserver将返回冲突错误(409)。客户端需重新获取服务端数据,重新修改后再次提交到服务器端;而资源配额对每个命名空间的资
通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prometheus绑定LoadBalancer类型的Se
队列、支持优先级调度等。Volcano Job更加适用于机器学习、大数据、科学计算等高性能计算场景。 应用扩缩容优先级策略(Balancer与BalancerPolicyTemplate):开启Volcano应用扩缩容优先级策略后,将会在集群中新增两类CRD资源,其中Balanc
19及以上版本的集群支持修改容器引擎、操作系统、系统盘/数据盘大小、数据盘空间分配、安装前/后执行脚本配置。 修改节点池容器引擎、操作系统、安装前/后执行脚本时,修改后的配置仅对新增节点生效,存量节点如需同步配置,需要手动重置存量节点。 修改节点池系统盘/数据盘大小、数据盘空间分配则仅对新增节点生效,即使重置存量节点也无法同步配置。