检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] credentials = BasicCredentials(ak
入门指引 本文旨在帮助您了解云容器引擎(Cloud Container Engine,简称CCE)的基本使用流程以及相关的常见问题,帮助您快速上手容器服务。 您可以通过控制台、Kubectl命令行、API参考使用云容器引擎服务。 使用步骤 完整的云容器引擎使用流程包含以下步骤: 图1
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] credentials = BasicCredentials(ak
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] credentials = BasicCredentials(ak
设置性能管理配置 操作场景 应用性能管理服务(APM)当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已
除了 prefix 字段为选填外,其他字段必填。provider 为固定值 huawei。 endpoint 可以到地区和终端节点获取,都需要保证集群内各节点可访问该地址。当endpoint 不带协议头时(http或者https),默认启用 https。 credential中的 name
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] credentials = BasicCredentials(ak
在CCE集群中使用密钥Secret的安全配置建议 当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议:
5 节点池级别 集群中用户新创建了一个使用大规格机型c7.8xlarge.2的节点池(辅助弹性网卡配额256) 节点池下大部分节点平时日常运行100个Pod左右 节点池下大部分节点最多运行128个Pod 节点池下大部分节点日常在10s内会瞬时弹性扩容10个Pod 节点池下大部分
适配NPU和安全容器 节点伸缩策略支持不设置步长 bug修复,自动移除已删除的节点池 设置优先调度 注册EmptyDir调度策略 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制 当没有开启弹性伸缩的节点池时上报无法伸缩的事件 修复NPU节点在扩容过程中会再次触发扩容的问题
节点绑定容器网卡数低水位:默认为0,保障节点至少会绑定多少张网卡(未被Pod使用+已被Pod使用)。ECS节点预绑定低水位网卡数=节点绑定网卡数低水位*节点总辅助弹性网卡数;BMS节点预绑定低水位网卡数=节点绑定网卡数低水位*节点总弹性网卡数。 节点绑定容器网卡数高水位:默认为0,保障节点至多会绑定多少张网
在容器隧道模型的集群中,节点内Pod间通信和跨节点Pod间通信路径不同: 节点内Pod间通信:同节点的Pod间通信通过本节点的OVS网桥直接转发。 跨节点Pod间通信:所有跨节点Pod间的通信通过OVS隧道网桥进行封装后,通过主机网卡转发到另一个节点上的Pod。 优缺点 优点 容器网络和节点网络解耦
创建节点池 节点池 createNodePool 更新节点池 节点池 updateNodePool 删除节点池 节点池 claimNodePool 迁移节点池 节点池 migrateNodepool 修改节点池配置 节点池 updateConfiguration 创建节点 节点 createNode
获取cluster_id 节点ID(node_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点”页签,将光标移动到节点名称上,查看对应的节点ID。 图2 获取node_id 节点池ID(nodepool_id)
您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。
ELB对接Pod ELB对接Pod需要通过节点NodePort转发 ELB对接Pod需要通过节点NodePort转发 使用独享型ELB时可直接对接Pod 使用共享型ELB对接Pod需要通过节点NodePort转发 容器IP地址管理 需设置单独的容器网段 按节点划分容器地址段,动态分配(地址段分配后可动态增加)
图2 存储卷 在基本信息中查看云硬盘的可用区。 图3 云硬盘详情 在CCE控制台左侧列表中选择“节点管理”,单击“创建节点”,创建一个该可用区的节点。 图4 创建指定可用区的节点 节点创建完成后,工作负载调度器会自动尝试重新调度。 父主题: 模板插件
解决方案:可以参考以下方法满足组件Pod的调度要求,处理完成之后再次尝试组件变更操作。 检查节点的污点,删除不必要的污点。具体操作,请参见管理节点污点。 合理分配容器资源。具体操作,请参见合理分配容器计算资源。 在集群中添加新的节点。具体操作,请参见创建节点池。 原因二:Pod创建失败 参考工作负载状态异常定位方法解决创建失败的问题。
否网络正常,如网络不正常: 安全组是否正常 ACL是否正常 是否跨节点Pod网络是否正常,如果跨节点Pod网络不通则需要确认以下问题是否存在: 修改了节点内核 安全组和ACL策略未放通 VPC路由表是否正常 节点上的iptables规则是否正常 内核其他参数 非标网段(CCE不推
计算公式:集群内容器算力使用总量/集群内算力总量 节点-显存使用量 字节 每个节点的显存使用量 节点-算力使用率 百分比 每个节点的算力使用率 计算公式:节点上容器算力使用总量/节点上算力总量 节点-显存使用率 百分比 每个节点的显存使用率 计算公式:节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量