正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
okup命令查看Pod对应的域名,可以发现能解析出Pod的IP地址。这里可以看到DNS服务器的地址是10.247.3.10,这是在创建CCE集群时默认安装CoreDNS插件,用于提供DNS服务,后续在Kubernetes网络会详细介绍CoreDNS的作用。 $ kubectl run
Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Work
本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器 ECS ECS虚拟机规格:4核8G或以上规格,Ubuntu 22.04操作系统。 绑定弹性IP规格:按带宽计费,5Mbit/s。 建议选择按需计费。
允许挂载目录非空 allow_other 无需填写 允许其他用户访问并行文件系统 no_check_certificate 无需填写 不校验服务端证书 sigv2 无需填写 签名版本。对象桶自动使用。 public_bucket 1 设置为1时匿名挂载公共桶。对象桶只读模式下自动使用。
管理工作负载弹性伸缩策略 操作场景 工作负载弹性策略创建完成后,可对创建的策略进行更新、编辑YAML以及删除等操作。 操作步骤 您可以查看工作负载弹性策略的规则、最新状态和事件,参照界面中的报错提示有针对性的解决异常事件。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中
节点滚动升级 操作场景 节点滚动升级就是先创建新节点,然后将工作负载迁移到新的节点上,再删除旧节点。迁移流程如图1所示。 图1 节点迁移流程 约束与限制 现有节点和工作负载待迁移的节点必须在同一集群。 当前仅支持在Kubernetes v1.13.10及以后集群版本执行此操作。
安全组检查异常处理 检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索
管理工作负载伸缩策略 操作场景 HPA策略创建完成后,可对创建的策略进行更新、克隆、编辑YAML以及删除等操作。 查看HPA策略 您可以查看HPA策略的规则、状态和事件,参照界面中的报错提示有针对性的解决异常事件。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策
设置节点亲和调度(nodeAffinity) Kubernetes在调度工作负载时支持将节点作为亲和对象,将工作负载调度至具有指定标签和标签值的节点上。例如,某些节点支持使用GPU算力,则可以使用节点亲和调度,确保高性能计算的Pod最终运行在GPU节点上。 配置节点亲和调度策略
集群部分参数配置 集群类型 CCE Turbo集群 集群版本 1.29 Region 上海一 容器引擎 Containerd 网络模型 云原生网络2.0 服务转发模式 iptables 创建ClickHouse Operator。 下载官方提供yaml文件“clickhouse-operator-install-bundle
节点生命周期控制器(node-lifecycle-controller)配置 可用区亚健康阈值 当给定区域中处于非就绪状态的节点的占比高于此值时, 会将该区域视为不健康 参数名 取值范围 默认值 是否允许修改 作用范围 unhealthy-zone-threshold 大于0小于1
设置可用区亲和性 操作场景 可用区是指在同一个地理区域内,由于硬件、网络等因素的限制,将数据中心划分为多个独立的区域。在同一可用区内的节点之间可以通过高速网络进行快速通信,而不同可用区之间的通信则需要跨越物理距离,可能会有一定的延迟和风险。 将Pod调度到不同的可用区域中,可以提高应用程序的可用性和容错性。
手动升级 您可以通过云容器引擎管理控制台升级集群版本,以支持新特性的使用。 升级前,请先了解CCE各集群版本能够升级到的目标版本,以及升级方式和升级影响,详情请参见升级概述和升级前须知。 注意事项 集群升级过程中会自动升级插件到目标集群兼容的版本,升级过程中请不要卸载或者重装插件。
CronHPA定时策略 在一些复杂的业务场景下,可能有固定时间段高峰业务,又有日常突发高峰业务。此种情况下,用户既期望能定时弹性伸缩应对固定时间段高峰业务,又期望能根据指标弹性伸缩应对日常突发高峰业务。CCE提供CronHPA的自定义资源,实现在固定时间段对集群进行扩缩容,并且可
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求
g(SDK)等工具构建容器,并创建Kubernetes资源训练其模型。模型训练完成后,用户还可以使用KFServing创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一
CPU和内存使用率。 云原生监控插件:使用Prometheus提供基础资源使用指标,需将Prometheus注册为Metrics API的服务,详见通过Metrics API提供资源指标。 集群中需要安装容器垂直弹性引擎。 注意事项 容器垂直伸缩功能目前处于试验阶段,请谨慎使用。
everest.io/share-export-location:挂载目录配置。由SFS Turbo共享路径和子目录组成,共享路径可至SFS Turbo服务页面查询,子路径由用户自定义,后续指定该StorageClass创建的PVC均位于该子目录下。 everest.io/share-volume-type:选填字段。填写SFS
URL中的参数说明 参数 描述 {clusterid} 集群ID,创建集群后,调用获取指定项目下的集群接口获取。 Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,例如“获取用
云硬盘概述 为满足数据持久化的需求,CCE支持将云硬盘(EVS)创建的存储卷挂载到容器的某一路径下,当容器在同一可用区内迁移时,挂载的云硬盘将一同迁移。通过云硬盘,可以将存储系统的远端文件目录挂载到容器中,数据卷中的数据将被永久保存,即使删除了容器,数据卷中的数据依然保存在存储系统中。