检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
百分比 每张GPU卡的算力使用率 计算公式:显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度 摄氏度 每张GPU卡的温度 GPU-显存频率 赫兹 每张GPU卡的显存频率 GPU卡-PCle带宽 字节/秒 每张GPU卡的PCle带宽 指标清单 GPU视图使用的指标清单如下: 表2
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
是否允许obs挂载时使用默认的aksk 默认false over_subscription 否 String localpv超分比 默认 80 csi_attacher_detach_worker_threads 否 String 处理卸卷操作的 worker 的并发数目 默认 60
4地址段的掩码作用类似,用数字来表示网络部分所占用的二进制位数,可将IPv6地址分为网络地址和主机地址两部分。而前缀长度指定了网络部分占用的位数,剩余位数则是主机地址部分,可以更加方便和灵活地表示不同的地址段。 例如,fc00:d28::/32表示一个前缀长度为32位的IPv6地
15及以上版本的Everest插件。 定义自动创建的底层存储名称,实际创建的底层存储名称为“存储卷名称前缀”与“PVC UID”的拼接组合,如果不填写该参数,默认前缀为“pvc”。 例如,存储卷名称前缀设置为“test”,则实际创建的底层存储名称test-{uid}。 容量 申请的存储卷容量大小,支持GiB和MiB。
节点管理最佳实践 本文将为您介绍与节点管理相关的最佳实践,包括节点创建、管理和维护等方面,从而更好地满足业务需求。 场景分类 相关最佳实践 创建节点相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践
主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储 v1.7.3-r12 主要特性: 集群支持创建/纳管CentOS7.4操作系统的节点 kubernetes的Service支持对接DNAT网关服务
主要特性: 新建集群的Docker版本升级到1706 支持DNS级联 支持插件化管理 增强PVC和PV事件的上报机制 裸金属场景支持对接OBS对象存储 v1.7.3-r12 主要特性: 集群支持创建/纳管CentOS7.4操作系统的节点 kubernetes的Service支持对接DNAT网关服务
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
S 对象存储、SFS Turbo 极速文件存储的能力。通过安装升级云存储插件可以实现云存储功能的快速安装和更新升级。 该插件为系统资源插件,Kubernetes 1.13及以下版本的集群在创建时默认安装。 约束与限制 在CCE所创的集群中,Kubernetes v1.15.11版
> 默认联系组”页面对确认订阅的终端,执行删除即可。 图1 删除联系组 为什么告警清除之后还会继续发送告警? 告警清除仅清除告警规则页面的统计,如该告警持续达到阈值或者异常事件持续发生,仍会产生告警。 告警中心的联系组支持钉钉、飞书等么? 在告警中心的默认联系组页面无法创建钉钉、飞
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
rk”。 单击CCE控制台中的“操作记录”,查看集群操作记录详情。 在浏览器Console的“Filter”栏里输入“jobs”,过滤出jobs列表,单击该名称并选择“Preview”页签,在左侧列表选择本次操作对应的job,其中uid字段即为job的uid。 图5 获取job_id
是一些常见的场景: 表1 容器重建的常见场景 常见场景 说明 容器崩溃或异常终止 当运行中的容器因软件错误、资源耗尽或其他意外情况崩溃时,为了确保服务的连续性,系统会自动重建容器以迅速恢复服务。 手动删除某容器 若手动删除了某个正在运行的容器,容器编排工具会根据定义的部署策略重新
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
5-r0及以上补丁版本或1.25版本。 请确保云日志服务LTS资源配额充足,LTS的默认配额请参见基础资源。 集群控制面组件说明 当前CCE支持收集以下三种类型的控制面日志,每个日志流对应一个Kubernetes控制层面组件。关于这些组件的更多信息,请参见Kubernetes组件。 表1 集群控制面组件说明
登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。 未进行授权的用户需要先授权,已授权的用户可忽略本步骤。 在弹出框中单击“确认授权”。 图1 添加授权 在页面中勾选需要采集的日志类型,单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:您可按需开启,开启
选择左侧导航栏的“日志中心”。 未进行授权的用户需要先授权,已授权的用户直接跳转下一步。 在弹出框中单击“确认授权”。 图1 添加授权 页面单击“开启”,等待约30秒后,页面自动跳转。 图2 开启 采集容器标准输出:开启后,将创建名为default-stdout的日志策略,并上报
参数类型 描述 name String 上下文的名称。 若不存在publicIp(虚拟机弹性IP),则集群列表的集群数量为1,该字段值为“internal”。 若存在publicIp,则集群列表的集群数量大于1,所有扩展的context的name的值为“external”。 context
完成配置后,在“确认配置”页面,查看根据配置生成的API数据,您可以通过下载或复制进行使用。 图1 生成创建集群的API参数 使用生成的API数据作为Body体,调用创建集群接口,详情请参见创建集群。 生成创建节点池/节点的API参数 登录CCE控制台。 在左侧导航栏中选择“集群管理”,单击要创建节点的集群进入集群控制台。