检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群I
表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群I
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
CCE支持对集群配置参数进行管理,通过该功能您可以对核心组件进行深度配置。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到目标集群,查看集群的更多操作,并选择“配置管理”。 图1 配置管理 在侧边栏滑出的“配置管理”窗口中,根据业务需求修改Kubernetes的参数值: 表1
默认取值: 不涉及 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 {自定义key} Map<String,Array<PackageOptions>> 获取指定节点池配置参数列表返回体 表4 PackageOptions 参数 参数类型 描述 name String
量管理、熔断、监控、拓扑、调用链等丰富的服务治理能力。 登录应用服务网格ASM控制台。 在“总览”页面,单击“购买网格”。 设置如下参数,其余参数均采用默认值。 网格类型 此处以专有网格为例进行说明。 集群 选择准备工作中创建的集群。 可用区&节点规格 为确保Istio控制面运行
- name: default-secret 通过huawei.com/ascend-310指定申请NPU的数量。 使用huawei.com/ascend-310参数指定NPU数量时,requests和limits值需要保持一致。 指定huawei.com/ascend
LimitNOFILE或LimitNPROC参数设置为infinity时,表示容器单进程最大文件句柄数为1048576。 容器单进程最大文件句柄数通过以下参数设置: ... LimitNOFILE=1048576 LimitNPROC=1048576 ... 执行如下命令修改两个参数,其中1048576为最大文件句柄数的建议取值。
inodesFree,容器运行时存放镜像等资源的文件系统的可用inodes数的百分比 pid.available,留给分配 Pod 使用的可用 PID 数的百分比 软驱逐配置项 该配置是一组驱逐阈值集合,在一定的宽限期内都满足这些阈值才会触发Pod驱逐 参数名 取值范围 默认值 是否允许修改 作用范围 eviction-soft
c/systemd/journald.conf目录,其中RuntimeMaxUse参数表示日志缓存的最大内存占用量。若不配置RuntimeMaxUse,长时间运行会占用较大内存。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 修改节点RuntimeMaxUse
Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang-schedule的调度能力、计算任务队列管理、task-topology
需求。表1中列举了集群的主要性能参数,并给出了本示例的规划值,您可根据业务的实际需求大小进行设置,建议与原集群性能配置保持相对一致。 集群创建成功后,表1中带“*”号的资源参数将不可更改,请谨慎选择。 表1 CCE集群规划 资源 主要性能参数 参数说明 本示例规划 集群 *集群类型
当显存设置为单张GPU卡的容量上限或算力设置为100%时,将会使用整张GPU卡。 使用GPU虚拟化时,工作负载调度器将默认指定为Volcano且不可更改。 图1 设置xGPU配额 本文主要为您介绍GPU虚拟化的使用,其他参数详情请参见工作负载。 其余信息都配置完成后,单击“创建”。 工
云原生监控插件兼容自建Prometheus 云原生监控插件兼容模式 若您已自建Prometheus,且您的Prometheus基于开源,未做深度定制、未与您的监控系统深度整合,建议您卸载自建Prometheus并直接使用云原生监控插件对您的集群进行监控,无需开启“兼容模式”。 卸载您自建的Pro
软驱逐条件:当节点的内存/磁盘空间达到一定的阈值后,kubelet不会马上回收资源,如果改善到低于阈值就不进行驱逐,若这段时间一直高于阈值就进行驱逐。 您可以通过以下参数配置软驱逐条件: eviction-soft:软驱逐阈值设置。当节点驱逐信号满足一定阈值时,例如memory.available<1
node.kubernetes.io/disk-pressure:节点存在磁盘压力。 node.kubernetes.io/pid-pressure:节点存在 PID 压力。 node.kubernetes.io/network-unavailable:节点网络不可用。 node.kubernetes
升级实例过程中实现业务不中断 通过特权容器功能优化内核参数 使用Init容器初始化应用 CCE中使用x86和ARM双架构镜像 使用SWR触发器自动更新工作负载版本 插件高可用部署 应用容器化改造 容器网络带宽限制的配置建议 使用hostAliases参数配置Pod的/etc/hosts文件 容器与节点时区同步
根据业务需求和策略,经济地自动调整弹性计算资源的管理服务。 服务治理:深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 容器运维:深度集成容器智能分析,可实时监控应用及资源,支持采集、管理、分析日志,采集各项指标及事件并提供一键开启的告警能力。
5×16GiB=8GiB的GPU显存,该数值需为128MiB的整数倍否则会自动向下取整)。配置nvidia.com/gpu为整数,将使用整卡资源。如果在开启GPU虚拟化前工作负载中已经使用nvidia.com/gpu资源,则不会转成虚拟化GPU,依然使用整卡资源。 开启GPU虚拟化时,在工作负载中设置nvidia
况下您可通过节点磁盘空间不足的方案进行解决。 node.kubernetes.io/pid-pressure:节点的 PID 压力,此情况下您可通过修改节点进程 ID数量上限kernel.pid_max进行解决。 node.kubernetes.io/network-unavailable:节点网络不可用。