检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
而保证集群的可靠性,更多信息请参见资源配额。 从1.21版本集群开始,如果在集群配置管理中开启了enable-resource-quota参数,则创建命名空间将会同时创建默认的资源配额,根据集群规格不同,各个资源的配额如表1所示。您可以根据实际需求修改。 表1 默认资源配额 集群规模
监控中心、告警中心获得该权限后,支持子用户访问监控中心与告警中心,因此需要获得该权限。 CCE Tenant Guest 监控中心、告警中心支持对集群关联的OBS、DNS等全局资源配置进行检查,提前发现配置问题,因此需要获得该权限。 CCE CCE Administrator 监控中心、告警中心在运
创建TFJob。 kubectl apply -f tf-gpu.yaml 等待worker运行完毕后(一般GPU训练大约需要5分钟),执行如下命令查看运行结果: kubectl logs tf-smoke-gpu-worker-0 回显如下: ... INFO|2023-09-02T
设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。 表1 插件调度配置 参数 参数说明 多可用区部署 优先模式:优先将插件的Deployment实例调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。
异构资源调度(Volcano调度器支持) 调度器性能配置 仅kube-scheduler调度器支持该配置。 表2 调度器性能配置参数说明 名称 参数 说明 取值 调度器访问kube-apiserver的QPS kube-api-qps 与kube-apiserver通信的QPS,即每秒查询率。
通过控制台创建WordPress 登录CCE控制台。 单击集群进入集群控制台。 在左侧菜单栏选择“工作负载”,单击右上角“创建负载”。 填写工作负载参数。 基本信息 负载类型:选择无状态负载。 负载名称:wordpress。 命名空间:default。 实例数量:本例中实例数量设置为2。 图1
kind: ServiceAccount name: prometheus-test namespace: kube-system 执行以下命令创建rbac权限。 kubectl apply -f prometheus_rbac.yaml 获取目标集群bearer_token信息。
吞吐量:云硬盘每秒成功传送的数据量,即读取和写入的数据量。 IO读写时延:云硬盘连续两次进行读写操作所需要的最小时间间隔。 表1 云硬盘性能规格 参数 极速型SSD V2 通用型SSD V2 极速型SSD 通用SSD 超高IO 高IO 云硬盘最大容量(GiB) 系统盘:1024 数据盘:32768
一般是由于在计算需要为资源调整多少个副本数时出现了问题,例如metric-server不可用、资源指标采集失败、CPU利用率等设置不正确等。 可以通过以下命令查看详细的信息: kubectl describe horizontalpodautoscaler <hpa-name> HPA HPA获取对象指标失败
需要保障所使用的云服务配额充足。 使用CCE需要关注哪些配额限制? 使用限制 集群的节点上不建议用户随意修改内核参数、系统配置、集群核心组件版本、安全组及ELB相关参数,也不建议用户随意安装未经验证的软件。 部署 可能会导致CCE集群功能异常或安装在节点上的Kubernetes组
设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。 表1 插件调度配置 参数 参数说明 多可用区部署 优先模式:优先将插件的Deployment实例调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。
23 v1.25 v1.27 支持HCE 2.0 2.0.17 v1.21 v1.23 v1.25 v1.27 RollingUpdate参数配置优化 2.0.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持xGPU设备监控 支持nvidia.com/gpu与volcano
requests: cpu: "1" restartPolicy: OnFailure 执行以下命令下发作业: kubectl apply -f high_priority_job.yaml 通过 kubectl get pod 查看Pod运行信息,如下:
角色依赖的其他策略才会生效,例如Tenant Guest、Server Administrator、ELB Administrator、OBS Administrator、SFS Administrator、SWR Admin、APM FullAccess。了解更多角色依赖关系,请参考:系统权限。
8:00时间为准),结算完毕后进入新的计费周期。计费的起点以集群/节点创建成功的时间点为准,终点以实例删除时间为准。 集群/节点从下发创建命令到正常运行存在时间差,计费的起点是集群/节点创建成功的时间点,而非开始创建时间。您可以在CCE控制台中的“操作记录”中查看这两个时间。 例
在线离线业务混部:支持集群内在离线作业混部以及节点CPU和内存资源超卖,提升集群整体资源利用率。 建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签并单击右上角的“创建节点”。 在节点配置步骤中,选择节点可用区。 图4 创建节点 根据提示填写其他必要参数后,单击“创建”。 在左侧导航栏中选择“插件中心”,在右侧找到CoreDNS域名解析插件,单击“编辑”。 设置插件的多可用区部署策略为“强制模式”,单击“安装”。
隔。 5min 冷却时间 集群触发弹性缩容后,再次启动缩容评估的冷却时间。 说明: 集群中如果同时存在自动扩容和自动缩容的场景,建议配置该参数为0min,避免由于部分节点池持续扩容或者扩容失败重试而阻塞整体缩容节点行为,导致非预期的节点资源浪费。 10min 集群触发弹性扩容后,再次启动缩容评估的冷却时间。
在“调度配置”页面,选择Volcano调度器找到对应的“专家模式”,单击“开始使用”。 修改Volcano调度配置。 在nodeorder插件中,添加arguments参数,配置leastrequested.weight为0,即资源分配最少的节点优先级设置为0。 新增binpack插件,并指定xGPU自定义资源(volcano
单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 找到扩容失败的节点池,单击节点池名称后的“更新”,在弹出的“更新节点池”页面中配置参数。 重新选择一个节点池企业项目。 配置完成后,单击“确定”。 父主题: 节点池