检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
动态预热参数配置,绑定网卡数总量高低水位配置优先级高于容器网卡动态预热配置。 1.19.16-r4、1.21.7-r0、1.23.5-r0、1.25.1-r0及以上集群版本支持全部四个容器网卡动态预热参数配置,容器网卡动态预热配置优先级高于绑定网卡数总量高低水位配置。 图2 节点容器网卡动态预热策略
在控制台上方导航栏,单击“购买集群”,填写集群配置并单击“下一步:插件选择”。 在“插件选择”页面中,选择安装“云原生日志采集插件”并单击“下一步:插件配置”。 在“插件配置”页面中,在“云原生日志采集插件”配置中勾选“控制面组件日志”。 图1 创建集群时开启集群控制面日志 单击“下一步:确认配置”完成集群创建。
容器网络 容器网络模型对比 云原生网络2.0模型 VPC网络模型 容器隧道网络模型 Pod网络配置 父主题: 网络
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
25.2-r0及以上版本 v1.25以上版本集群 该功能只支持直通场景,即CCE Turbo集群中使用独享型ELB的场景。 该功能需在Pod中配置特定的readinessGates字段,指定标签target-health.elb.k8s.cce/{serviceName},其中{serviceName}为服务名称。
自建IDC与CCE集群共享域名解析 自建IDC与CCE集群共享域名解析方案概述 通过DNS Endpoint做级联解析 修改CoreDNS配置直接解析 父主题: 网络
80为Pod对外暴露的端口。port: 123为服务对外暴露的端口,负载均衡类型的服务同时使用该端口配置ELB的监听器。 找到节点端口(nodePort)后,使用容器所在节点的IP地址+端口进行访问,并查看结果是否符合预期。 常见问题: 节点的入方向对业务端口未放通。 节点配置了自定义路由,并且配置错误。 pod
ped)方式进行划分。90%的runtime逻辑卷由于未配置runtimeConfig,采用默认的线性方式进行划分。 创建裸盘 在控制台,单击新增数据盘后,在高级配置中默认,则创建磁盘为裸盘。 使用API调用则可以按如下配置。 cceUse selector匹配到一块100G 数据盘。
地域名解析加速插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据集群规模选择“单实例”或“高可用”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “单实例”为单实例部署DNSConfig自动注入
约束限制。 每个工作负载需单独配置。 日志采集策略与Pod配置耦合,修改日志配置会重启Pod。 日志采集策略与工作负载分开配置,调整日志采集策略不影响Pod运行。 可以指定采集某个容器的日志。 采集容器文件日志时,若节点存储模式为Device Mapper模式,路径配置必须为节点数据盘挂载路径。
CCE集群内域名解析失败,如何定位处理? 排查项一:检查是否已安装CoreDNS插件 登录CCE控制台,进入集群。 在左侧导航栏中选择“插件中心”,确认异常的集群是否已安装CoreDNS插件。 如果未安装,请安装。详情请参见为什么CCE集群的容器无法通过DNS解析? 排查项二:检查CoreDNS实例是否已到达性能瓶颈
节点 节点异常问题排查 节点创建 节点运行 规格配置变更 操作系统问题说明
册为Metrics API的服务,详见通过Metrics API提供基础资源指标。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到容器垂直弹性引擎插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,
容灾 CCE集群高可用推荐配置 在CCE中实现应用高可用部署 插件高可用部署
运维层面 集群运维能力 集群安全组配置正确性 集群资源规划合理性 租户配额是否充足 资源与业务层面 存储插件(everest)健康程度 日志采集插件(log-agent)健康程度 域名解析插件(coredns)健康程度 业务节点负载情况 业务节点状态 Pod配置健康程度 Pod负载情况 Pod运行状态
管理集群 修改CCE集群配置 开启集群过载控制 变更集群规格 更改集群节点的默认安全组 删除集群 禁止删除集群 休眠/唤醒按需计费集群 续费包年/包月集群 按需计费集群转包周期 父主题: 集群
ometheus.env.yaml 步骤三:对接第三方监控平台 登录CCE控制台,选择一个已安装云原生监控插件的集群,单击集群名称。 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签。 开启“对接第三方监控平台”,将云原生监控插件采集到的数据上报至第三方监控平台。 数
同一个集群的服务,也能够互不干扰。 例如可以将开发环境、测试环境的业务分别放在不同的命名空间。 前提条件 至少已创建一个集群。 约束与限制 每个命名空间下,创建的服务数量不能超过6000个。此处的服务对应kubernetes的service资源,即工作负载所添加的服务。 命名空间类别
Kubeflow部署成功后,使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例 部署TFJob资源以开始训练。
结合使用。 配置变更热更新:配置变更完全热更新,不需要Reload进程,对长连接无损。 场景示例 某企业在华为云使用CCE集群,并通过自建Nginx Ingress Controller配置Ingress转发规则,配置域名和路径的转发策略,且对外通过DNS域名提供服务。客户端访问域名example