检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。 优势 CCE通过集成Volcano,在高性能计算、大数据、AI等领域有如下优势: 多种类型作业混合部署:支持AI、大数据、HPC作业类型混合部署。 多队列场景调度优化:支持
自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集容器网络扩展指标。 (可选)安装Grafana:选择安装Grafana后,可以使用图表查看指标。 该配置在3.9.0以下版本的插件中支持。对于3.9.0及以上版本的插件,如果存在使用Grafana的需求,请单独安装Grafana。
查看Pod中未启动的Init容器的日志,通过日志内容排查问题。具体操作,请参见容器日志查看方法。 查看Pod的配置,确认未启动的Init容器配置是否正常。具体操作,请参见Pod配置查看方法。关于Init容器的更多信息,请参见调试Init容器。 父主题: 工作负载异常问题排查
突发弹性引擎 (对接 CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明 选择版本 插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统
CCE AI套件(NVIDIA GPU)插件使用dcgm-exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
“提交配置”,便可以在部门管理界面看到配置的结果。部门配置结果如下: 图6 部门配置 开通单集群视角的成本洞察 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理 > 成本洞察”。 单击“立即开通”,同样系统会自动执行安装云原生监控插件、成本标签激活、创
会导致Pod反复重启。 本示例中配置就绪探针延迟探测时间为20s,用于控制工作负载批量滚动的时间间隔。 图1 存活/就绪探针 设置滚动升级:在高级配置中选择“升级策略”,升级方式设置为“滚动升级”,逐步用新版本实例替换旧版本实例。 本示例中配置最大无效实例数(maxUnavai
KMS密钥ID非法 Security group [*****] not found 该问题可能存在以下两种情况: 节点池配置了自定义安全组,但是该安全组被删除,导致节点扩容失败。 节点池未配置自定义安全组,且集群默认安全组被删除,导致扩容失败。 节点池指定的安全组被删除 The Enterprise
的项目,集合了命令行可以操作的所有命令。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表2 object 插件规格参数 custom 是 表3 object 插件自定义参数 表2 flavor
支持 支持 不支持 给Pod绑定弹性公网IP 不支持 不支持 支持 说明: 给Pod绑定弹性公网IP,可以通过为Pod配置固定弹性公网IP实现,请参见为Pod配置固定EIP。 通过NAT网关访问公网 支持 支持 支持 下面内容以CCE Turbo集群为例,讲解如何通过NAT网关访
default_scheduler_conf 是 yaml 格式同Volcano配置YAML,参见Volcano配置格式 deschedulerPolicy 否 yaml 格式同Volcano重调度配置YAML,参见Volcano重调度配置格式 表5 resources字段数据结构说明 参数 是否必选
及容器网段不能重复。并且,对端VPC或小网需要配置回程路由(此限制只针对于CCE的集群为VPC网络模式),配置方法请参见对等连接。 此逻辑针对于华为云所有服务均有效。 “容器隧道网络”的集群,天然支持各服务间内网通信,不需要另外配置。 “VPC网络”模型的集群需要注意的事项: 对端看到的来源IP为容器IP。
单击右侧“编辑”,在参数配置中找到“日志采集”并开启。 如果集群中安装了多个NGINX Ingress控制器,需修改每个插件实例的配置才可采集所有实例的日志。 未安装插件时:单击“安装”,在参数配置中找到“日志采集”并开启。其余参数请根据需求选择,配置说明请参见NGINX Ingress控制器。
含Pod正在使用和集群预热的网卡。 操作步骤 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“配置中心”,切换至“网络配置”页签。 查看“容器网络配置”,以default-network(默认容器子网)为例,复制容器子网的“网络ID”。 登录VPC控制台,在左侧
节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本 云服务器事件处理建议 父主题: 节点
CTS的详细介绍和开通配置方法,请参见CTS快速入门。 CCE用户查看云审计日志方法,请参见云审计日志。 图1 云审计服务 日志 CCE支持配置工作负载日志策略,便于日志的统一收集、管理和分析,同时支持按周期进行防爆处理。 CCE配合AOM收集工作负载的日志,在创建节点时会默认安装AOM的I
Turbo集群。详情请参见共享VPC概述。 使用场景 企业按企业的组织结构或业务形态,将账号有序组织集中管理。统一资源管理并与其他成员共享,节省资源重复配置。统一安全运维管理,便于企业集中配置安全策略,利于审计跟踪。 例如,资源所有者为企业IT账号,创建VPC及子网,并将多个子网分别共享给其他账号: 账号A为企业业务账号,使用子网1创建资源。
API提供资源指标。该插件仅支持v1.21及之前的集群版本。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到CCE容器弹性引擎插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据CCE推荐的预置值
为准使用多可用部署均分模式。 multiAZBalance 否 bool 插件中deployment组件多可用部署是否采用均分模式,默认:false。插件Deployment实例均匀调度到当前集群下各可用区,增加新的可用区后建议扩容插件实例以实现跨可用区高可用部署;均分模式限制不
的后端服务器。如果在更新Service时配置出现错误,导致更新后的后端服务器全部健康检查失败,在保证流量不中断的逻辑下,Service此时并不会删除原先正常的后端服务器,最终导致只有部分后端服务器更新为错误配置,其余后端服务器仍保持原先配置。 解决方法:在后端服务器配额已满的情况