检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点系统参数优化 可优化的节点系统参数列表 修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数 修改节点内核参数 修改节点进程 ID数量上限kernel.pid_max 父主题: 节点运维
取值范围: true: 开启对分布式云支持 false: 关闭对分布式云支持 默认取值: 默认false deletionProtection Boolean 参数解释: 集群删除保护,如果开启后用户将无法删除该集群。 约束限制: 不涉及。
创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每次训练过程中的性能(image
将自建K8S集群迁移到CCE Jenkins安装部署及对接SWR和CCE集群 使用Kubeflow和Volcano实现典型AI训练任务 kubeflow华为云CCE虚机搭建运行分布式tf报告 通过CCE搭建IPv4/IPv6双栈集群 CCE集群的网络地址段规划实践 使用subpath
集群可用但节点状态为“不可用”如何解决? 当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照如下方式来排查解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 使用
CCE集群安全配置建议 从安全的角度,建议您对集群做如下配置。 使用最新版本的CCE集群 Kubernetes社区一般4个月左右发布一个大版本,CCE的版本发布频率跟随社区版本发布节奏,在社区发布Kubernetes版本后3个月左右同步发布新的CCE版本,例如Kubernetes
v1.25 v1.27 v1.28 v1.29 支持OBS多AZ冗余存储策略 支持自定义存储卷名称前缀 支持包周期EVS卷 2.4.8 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 支持GPSSD2和ESSD2类型磁盘 支持DSS专属分布式存储
易于管理:Prometheus server是一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储。 高效:平均每个采样点仅占 3.5 bytes,且一个Prometheus server可以处理数百万的metrics。
集群系统密钥说明 CCE默认会在每个命名空间下创建如下密钥。 default-secret paas.elb default-token-xxxxx(xxxxx为随机数) 下面将详细介绍这个几个密钥的用途。 default-secret default-secret的类型为kubernetes.io
操作系统版本支持机制 同步机制 云容器引擎CCE发布的集群节点组件会随CCE集群版本发布定期更新。 操作系统重大漏洞修复:跟随集群补丁升级策略发布。 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统
开启对分布式云支持(homezone/cloudpond) 集群可以统一管理数据中心和边缘的计算资源,用户可以根据业务诉求将容器部署到合适的区域。 该功能仅CCE Turbo集群支持,且需要提前注册智能边缘小站,详情请参见在CCE Turbo集群中使用分布式云资源。
操作系统镜像发布记录 操作系统版本支持机制 操作系统镜像版本说明 父主题: 产品发布记录
操作系统镜像版本说明 本文为您提供CCE集群操作系统版本相关的最新发布动态。 如需获取最新的集群版本与操作系统版本对应表,请参见集群版本与操作系统对应关系。 Huawei Cloud EulerOS 2.0 内核版本 发布时间 发布说明 5.10.0-182.0.0.95.r1941
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
启用组调度(Gang)后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。详情请参见组调度(Gang)。 异构资源调度(Volcano调度器支持) 支持GPU资源调度 使用该能力时,集群中需要同时安装CCE AI套件(NVIDIA GPU)。
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认数据盘供容器运行时和
取值范围: true: 开启对分布式云支持 false: 关闭对分布式云支持 默认取值: 默认false deletionProtection 否 Boolean 参数解释: 集群删除保护,如果开启后用户将无法删除该集群。 约束限制: 不涉及。
ETCD:一个分布式数据存储组件,负责存储集群的配置信息。 在生产环境中,为了保障集群的高可用,通常会部署多个Master,如CCE的集群高可用模式就是3个Master节点。 Node节点 Node节点是集群的计算节点,即运行容器化应用的节点。
CCE容器中域名解析的最佳实践 本文档重点介绍在CCE容器中如何配置域名解析。 服务 在创建工作负载(Deployment或ReplicaSet)之前,需要先创建与之相关联的服务。 因为Kubernetes在启动容器时,会为容器提供所有正在运行的服务作为环境变量。 例如,如果存在名为
图1 gRPC示意图 在gRPC中,客户端应用程序可以直接调用位于不同机器上的服务端应用方法,可以轻松创建分布式应用程序和服务。