正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
节点池管理最佳实践 本文将为您介绍与节点池管理相关的最佳实践,包括节点池创建、管理和弹性伸缩等方面,从而更好地满足业务需求。 场景分类 相关最佳实践 创建节点池相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小
无状态工作负载可以进行关闭/开启升级操作,仅无状态工作负载可用。 标签管理 标签是以key/value键值对的形式附加在工作负载上的。添加标签后,可通过标签对工作负载进行管理和选择。任务或定时任务无法使用标签管理功能。 删除 若工作负载无需再使用,您可以将工作负载或任务删除。工作负
Prometheus插件版本发布记录(停止维护) 表1 Prometheus插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 2.23.32 v1.17 v1.19 v1.21 - 2.10.0 2.23.31 v1.15 适配CCE v1.15集群 2.10.0 2.23
配置管理-容器引擎配置 单容器可用数据空间 单容器可用数据空间 参数名 取值范围 默认值 是否允许修改 作用范围 devmapper-base-size 大于等于0 0 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 当前仅devicemapper场景支持限制,overlayfs不支持
容器设置 在什么场景下设置工作负载生命周期中的“停止前处理”? 在同一个命名空间内访问指定容器的FQDN是什么? 健康检查探针(Liveness、Readiness)偶现检查失败? 如何设置容器umask值? CCE启动实例失败时的重试机制是怎样的? 父主题: 工作负载
资源和成本规划 本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 云容器引擎CCE 建议选择按需计费。 集群类型:CCE集群 集群版本:v1.25 集群规模:50节点 高可用:是
在使用云容器引擎前,您需要完成本文中的准备工作。 注册华为账号并实名认证 为账户充值 创建IAM用户 获取资源权限 (可选)创建虚拟私有云 (可选)创建密钥对 注册华为账号并实名认证 如果您已有一个华为账号,请跳到下一个任务。如果您还没有华为账号,请参考以下步骤创建。 打开华为云官网,单击页面右上角的“注册”。
构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,最大支持1000Pod/s的调度并发数,轻松应对各种规模的工作负载,大大提高调度效率和资源利用率。 Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括:
AOM实例:选择指标上报的AOM实例。采集的基础指标免费,自定义指标将由AOM服务进行收费,详情请参见价格详情。对接AOM需要用户具备一定权限,目前仅华为云/华为账号,或者在admin用户组下的用户支持此操作。 插件配置完成后,单击“安装”。 前往AOM服务查看监控数据。 登录AOM 2.0控制台,单击左侧导航栏中的“指标浏览”。
纳管节点时已分区的数据盘会被忽略,您需要保证节点至少有一个未分区且符合规格的数据盘。 操作步骤 登录CCE控制台,进入要纳管节点的集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签并单击右上角的“纳管节点”。 配置节点参数。 节点配置 表1 节点配置参数 参数 参数说明 节点规格 单击添加已有云服务器,选择要纳管的服务器。
什么是弹性网卡? 集群安全组规则配置 创建CCE Turbo集群时如何设置IPv6服务网段 CCE集群的节点是否支持绑定多网卡? 父主题: 网络管理
resources: members_per_pool 为ELB Ingress配置了HTTPS证书后访问异常的原因有哪些? 父主题: 网络管理
服务发布到ELB,ELB的后端为何会被自动删除? 如何使容器重启后所在容器IP仍保持不变? 如何确认网卡不被集群占用? 删除子网后如何删除安全组规则? 父主题: 网络管理
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
无状态工作负载可以进行关闭/开启升级操作,仅无状态工作负载可用。 标签管理 标签是以key/value键值对的形式附加在工作负载上的。添加标签后,可通过标签对工作负载进行管理和选择。任务或定时任务无法使用标签管理功能。 删除 若工作负载无需再使用,您可以将工作负载或任务删除。工作负
CCE集群创建时的根证书如何更新? CCE集群根证书是Kubernetes认证的基础证书,华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes
Deployment、Statefulset)的主要区别是: 批处理业务的运行有头有尾,而长期伺服业务在用户不停止的情况下永远运行。Job管理的Pod根据用户的设置把任务成功完成就自动退出了。成功完成的标志根据不同的spec.completions策略而不同,即: 单Pod型任务有一个Pod成功就标志完成。
UUID列表,最大支持配置5个。 禁止重复 NULL 允许 CCE Turbo 控制台上创建节点池时不允许指定,支持在节点池创建后在节点池配置管理中配置。 通过yangtse-agent的配置管理生效 父主题: 节点池