检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
型资源共存的环境下,尽可能满足分配的公平原则。 配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 组调度 将一组Pod看做一个整体进行资源分配。观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运
metrics:监控数据采集方式,当前支持通过Custom Metrics API(prometheus_adaptor聚合数据)和Prometheus 直接查询。 Volcano 1.11.17及之后的版本推荐使用Custom Metrics API的方式获取监控数据,示例如下: { "type":
19 v1.21 插件性能优化,降低资源消耗 1.2.11 v1.15 v1.17 v1.19 v1.21 从K8s Metrics API查询资源指标 计算资源利用率时考虑未就绪的Pod 1.2.10 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1
1.6.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 安全加固:将插件使用的查询secret的权限限制在monitoring命名空间 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 新增创建容器日志默认日志流时索引功能
Controller的节点亲和性配置 N/A 查看NPD事件 NPD上报的事件可以在节点管理页面查询。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”。 在节点所在行,单击“事件”,可查看节点相关事件。 图1 查看节点事件 配置NPD指标告警 针对NPD状态类检
"driver_init_image_version": "2.4.4", "ecsEndpoint": "https://ecs.***.com", "everest_image_version": "2.4.4", "evs_url":
x86_64 ARM: 4.19.90-vhulk2103.1.0.h584.eulerosv2r9.aarch64 K8s社区issue:https://github.com/kubernetes/kubernetes/issues/81775 父主题: 操作系统问题说明
网段配置(创建集群时配置) 云原生网络2.0访问示例 本示例中,已创建一个CCE Turbo集群,且集群中包含3个ECS节点。 在ECS控制台中查看其中一个节点的基本信息,在网卡信息中可以看到节点上绑定了一个主网卡和扩展网卡,这两个网卡都属于弹性网卡,其中扩展网卡的IP地址属于容器网络
外部请求首先到达Ingress Controller,Ingress Controller根据Ingress的路由规则,查找到对应的Service,进而通过Endpoint查询到Pod的IP地址,然后将请求转发给Pod。 图2 Ingress工作机制 创建Ingress 下面例子中,使用
到CCE容器网络扩展指标插件,单击“安装”。 在安装插件页面,查看插件配置。 当前该插件无可配置参数。 单击“安装”。 待插件安装完成后,选择对应的集群,然后单击左侧导航栏的“插件中心”,可在“已安装插件”页签中查看相应的插件。 组件说明 表1 CCE容器网络扩展指标组件 容器组件
参数 说明 取值 调度器访问kube-apiserver的QPS kube-api-qps 与kube-apiserver通信的QPS,即每秒查询率。 集群规格为1000节点以下时,默认值100 集群规格为1000节点及以上时,默认值200 调度器访问kube-apiserver的突发流量上限
修复部分问题 2.1.22 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.14 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29
matplotlib;python /home/basicClass.py 。 挂载刚刚创建的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS页面,可以查看到以图片形式展示的执行结果。 通过kubectl创建可以按如下YAML执行。 kind: Job apiVersion: batch/v1
IAM中再创建一个只读用户组“read_only”,然后将相关用户都添加到此用户组中。 两个开发工程师虽然不需要配置集群的管理权限,但也需要查看CCE控制台,因此需要有集群的只读权限才能满足需求。 运维工程师需要某区域集群的管理权限,为方便管理,这里先为其赋予集群的只读权限。 运维
- name: default-secret 创建该工作负载: kubectl apply -f deployment.yaml 查看已运行的Pod。 kubectl get pod -owide 回显如下: NAME READY
规格选择:对节点池中的节点规格单独设置是否开启弹性伸缩。 当节点池中包含多个规格时,您可以对每个规格的节点数范围和优先级进行单独配置。 查看集群级别的弹性伸缩配置,集群级别的配置对所有节点池生效。当前页面仅支持查看集群级别的弹性伸缩策略,如需修改请前往“配置中心”进行设置,详情请参见配置集群弹性伸缩策略。 设置完成后,单击“确定”。
-f ingress-test.yaml 回显如下,表示Ingress服务已创建。 ingress/ingress-test created 查看已创建的Ingress。 kubectl get ingress 回显如下,表示Ingress服务创建成功。 NAME CLASS
s的Condition,该Condition为true表示Pod的沙箱已就绪,可以开始创建业务容器。该特性使得集群管理员可以更清晰和全面地查看 Pod 沙箱的创建完成和容器的就绪状态,增强了指标监控和故障排查能力。更多使用细节请参考PodReadyToStartContainersCondition。
待新建或已存在的工作负载至少收集7日以上监控数据到AOM中,AHPA即可建模成功并给出副本数推荐,等待AHPA生成副本推荐数,执行以下命令查看AHPA资源详情。 kubectl get ahpa hamster-ahpa -oyaml 回显如下: apiVersion: autoscaling
调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证Pod全部运行在目标节点上,即节点包含gpu=true标签。 工作负载节点亲和性规则通过节点标签实现。CCE集群中节点在创建