检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
启用了SNAT,数据包的源IP地址在经过节点时会被替换为节点的IP地址,这会阻碍从这些资源到Pod的直接访问。 要确保VPC内的其他资源能够直接访问Pod,需要将这些资源所在子网的网段也添加到nonMasqueradeCIDRs参数中,从而避免源地址转换,保持数据包的源IP地址为原始Pod地址。
约束与限制 支持同步数据:虚机状态、云服务器名称、CPU数量、Memory数量、云服务器规格、公网IP等。 当用户节点指定了云服务器名称作为K8s节点名称时,该云服务器名称的修改将无法同步到CCE控制台。更多说明请参见云服务器名称、节点名称与K8s节点名称说明。 不支持同步数据:操作系统、镜像ID、磁盘配置。
些分布式的场景,要求每个Pod都有自己单独的状态时,比如分布式数据库,每个Pod要求有单独的存储,这时Deployment无法满足业务需求。 分布式有状态应用的特点主要是应用中每个部分的角色不同(即分工不同),比如数据库有主备、Pod之间有依赖,在Kubernetes中部署有状态应用对Pod有如下要求:
Dashboard的指标采集模块,它负责从Kubernetes集群中收集指标数据,并将这些数据提供给Web组件。Metrics-scraper组件使用Heapster或Metrics Server来获取指标数据,并将这些数据存储在Kubernetes API Server中。 Deployment
统盘等资源的计费模式。当前支持将节点的计费模式从按需计费转为包年/包月,可以让您享受一定程度的价格优惠。 云硬盘(包括系统盘和数据盘) 节点的系统盘和数据盘不支持从EVS控制台单独变更计费模式,需从CCE控制台随节点一同变更计费模式。 弹性公网IP 如节点绑定的弹性公网IP支持转
排查项六:检查磁盘是否异常 新建节点会给节点绑定一个100G的docker专用数据盘。若数据盘卸载或损坏,会导致docker服务异常,最终导致节点不可用。 图3 集群新建节点时的数据盘 请检查节点挂载的数据盘是否已被卸载。若已卸载请重新挂载数据盘,再重启节点,节点可恢复。 图4 磁盘检查 排查项七:内部组件是否正常
相关最佳实践 创建节点相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd
Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹性调度方面还有很多的不足。主要存在以下问题: 资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色,这两
persistence.enabled=false Mariadb使用持久化存储卷保存数据。持久化存储选用云硬盘,大小为10 GiB,并通过配置StorageClassName自动化创建。 WordPress不需要进行数据持久化,数据卷persistence.enabled配置为false。 命令执行后回显类似如下。
在“高级配置”中,填写安装前/后执行脚本。 例如,您可以通过安装后执行脚本创建iptables规则,限制每分钟最多只能有25个TCP协议的数据包通过端口80进入,并且在超过这个限制时,允许最多100个数据包通过,以防止DDoS攻击。 iptables -A INPUT -p tcp --dport 80 -m limit
在“高级配置”中,填写安装前/后执行脚本。 例如,您可以通过安装后执行脚本创建iptables规则,限制每分钟最多只能有25个TCP协议的数据包通过端口80进入,并且在超过这个限制时,允许最多100个数据包通过,以防止DDoS攻击。 iptables -A INPUT -p tcp --dport 80 -m limit
工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题 工作负载状态正常但未正常工作 挂载文件存储的节点,Pod创建删除卡死 容器异常退出状态码
相关最佳实践 创建节点池相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点池日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd
luster.install.addons/install,Value为AddonTemplate的json列表字符串。 表1 Value数据结构说明 参数 是否必选 参数类型 描述 Value 是 Json Array of AddonTemplate String. 集群待安
Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。
Ingress配置黑名单/白名单访问策略 为ELB Ingress配置多个监听端口 为ELB Ingress配置HTTP/HTTPS头字段 为ELB Ingress配置gzip数据压缩 为ELB Ingress配置URL重定向 为ELB Ingress配置Rewrite重写 为ELB Ingress配置HTTP重定向到HTTPS
ECS计费模式。 注意事项 节点关机会涉及Pod迁移,可能会影响业务,请在业务低峰期操作。 操作过程中可能存在非预期风险,请提前做好相关的数据备份。 操作方法 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击待关机节点的名称。
单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
在左侧导航栏中选择“监控中心”,单击“仪表盘”页签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
S头字段 为负载均衡类型的Service配置超时时间 为负载均衡类型的Service配置TLS 为负载均衡类型的Service配置gzip数据压缩 为负载均衡类型的Service配置黑名单/白名单访问策略 为负载均衡类型的Service指定多个端口配置健康检查 为负载均衡类型的S