检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
华为云AOM云服务基于Prometheus监控生态,提供了托管式的Prometheus实例 for CCE,适合需要对容器服务集群及其上面运行的应用进行一体化监控场景。AOM实例默认提供对容器服务CCE集群的云原生监控插件的集成,监控中心开通后,指标将自动上报指标到指定的AOM实例。详情请参见Prometheus监控。
当前CCE已为secret资源配置了静态加密,用户创建的secret在CCE的集群的etcd里会被加密存储。当前secret主要有环境变量和文件挂载两种使用方式。不论使用哪种方式,CCE传递给用户的仍然是用户配置时的数据。因此建议: 用户不应在日志中对相关敏感信息进行记录; 通过文
Dashboard安全漏洞CVE-2018-18264:使用Kubernetes Dashboard v1.10及以前的版本有跳过用户身份认证,及使用Dashboard登录账号读取集群密钥信息的风险 。 华为云CCE提供的Dashboard插件已将对应镜像升级到v1.10.1版本,不受Kubernetes
进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存
8GiB,且已经在集群中部署了两个实例,其中实例1存在CPU和内存资源超分(即限制值>申请值),而实例2不存在资源超分。两个实例的规格设置如下: 实例 CPU申请 CPU限制 内存申请 内存限制 实例1 1Core 2Core 1GiB 4GiB 实例2 2Core 2Core 2GiB
修复节点池扩容失败后无法切换到其他节点池扩容且插件有重启动作的问题 默认污点容忍时长修改为60s 扩容规则禁用后仍然触发扩容 1.25.0 1.25.11 v1.25 支持插件实例AZ反亲和配置 对创建临时存储卷的POD添加不可调度容忍时间 修复伸缩组资源不足时无法正常修复节点池数量问题 1.25.0 1.25.7 v1
若不执行本步骤或创建静态PV/PVC时没有执行过本步骤,请务必确保删除节点前,提前将静态PV关联的云硬盘从节点上解关联。 获取租户Token,详情请参见获取用户Token 。 获取EVS访问地址EVS_ENDPOINT,详情请参见区域和终端节点。 给EVS静态PV关联的EVS盘补充集群关联的metadata。 curl
排查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署 排查项一:节点是否存在资源压力 当满足硬性或软性
修改节点最大实例数。详情请参见节点池配置管理。 默认场景下,节点最大实例数最多可调整至256。如果您期望提升节点上的部署密度,您可以提交工单申请调整节点最大实例数,最大支持修改至512个实例。 图2 创建节点时的最大实例数配置 根据节点规格不同,节点默认最大实例数如表1所示。 表1
限的组件。pkexec是Plokit框架中的一部分,执行具有提升权限的命令,是sudo的替代方案。请使用Polkit的用户及时安排自检并做好安全加固。 参考链接:https://www.qualys.com/2022/01/25/cve-2021-4034/pwnkit.txt 表1
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyte
2024/10/11 3 Linux CUPS服务RCE 漏洞公告(CVE-2024-47076、CVE-2024-47175、CVE-2024-47176、CVE-2024-47177) 漏洞公告 2024/10/11 4 华为云容器服务CCE Autopilot数据面账单变更公告
单个集群不建议超过100个节点池。 删除节点池 删除节点池时会先删除节点池中的节点,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 如果工作负载实例具有特定的节点选择器,且如果集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 节点池开启弹性伸缩 开启弹性伸缩后,节点池将根据
CoreDNS所能提供的域名解析QPS与CPU消耗成正相关,集群中的节点/容器数量增加时,CoreDNS实例承受的压力也会同步增加。请根据集群的规模,合理调整插件实例数和容器CPU/内存配额。 表1 CoreDNS插件配额建议 节点数量 推荐配置 实例数 CPU申请值 CPU限制值 内存申请值 内存限制值 50 2500QPS
删除该密钥,此时模板实例即删除成功: 注:若用户通过前端console操作,在获取实例、更新实例等操作中CCE会自动尝试转换原v2模板实例到v3模板实例。在密钥中存储release信息,原配置项中release信息不会删除。建议用户在配置项和密钥中均查询并删除该实例。 父主题: 模板插件
在业务验证过程中,出于一些原因,该用户对集群的资源进行了以下变更: 图1 资源变更样例 该用户于2023/03/18 17:30:00对集群进行休眠,并同时对节点进行关机。 该用户于2023/03/19 8:30:00重新唤醒集群,并同时对节点进行开机。 该用户在集群中部署业务,并在2023/03/19
SecretProviderClass对象用于描述用户感兴趣的凭据信息(比如指定凭据的版本、凭据的名称等),由用户创建,并在业务Pod中进行引用。 根据如下模板创建secretproviderclass.yaml。用户主要关注parameters.objects字段,它是一个数组,用于声明用户想要挂载的凭据信息。
0网络模式下,Pod使用的是VPC的弹性网卡/辅助弹性网卡,可直接绑定安全组,绑定弹性公网IP。为方便用户在CCE内直接为Pod关联安全组,CCE新增了一个名为SecurityGroup的自定义资源对象。通过SecurityGroup资源对象,用户可对工作负载实现自定义的安全隔离诉求。 使用安全组策略(Securi
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态