检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务器、开发、测试环境以及中低性能数据库等场景。 GPU加速型:提供优秀的浮点计算能力,从容应对高实时、高并发的海量计算场景。P系列适合于深度学习,科学计算,CAE等;G系列适合于3D动画渲染,CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。 高性能计算型:实例提供具有
为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。
Core 深度学习加速 云桌面、图像渲染、3D可视化、重载图形设计。 CCE Standard集群 计算加速型 P2s NVIDIA V100 5120 14TFLOPS 单精度浮点计算 7TFLOPS 双精度浮点计算 112TFLOPS Tensor Core 深度学习加速 AI
在选择Nvidia驱动时,建议您在满足下表中CUDA版本和驱动版本配套关系的前提下,优先选择CCE推荐的GPU驱动版本列表中提供的GPU驱动版本。若CCE推荐的驱动版本无法匹配您使用的CUDA Toolkit版本,必须使用非推荐的驱动版本,则需要您自行验证机型、系统及驱动版本间的配套兼容性。 CUDA Toolit版本
容灾 CCE集群高可用推荐配置 在CCE中实现应用高可用部署 插件高可用部署
收集容器日志 通过云原生日志采集插件采集容器日志 通过ICAgent采集容器日志(不推荐) 父主题: 日志中心
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
Turbo) 极速文件存储概述 通过静态存储卷使用已有极速文件存储 设置极速文件存储挂载参数 通过动态存储卷创建SFS Turbo子目录(推荐) 通过StorageClass动态创建SFS Turbo子目录 父主题: 存储
l,范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 使用通用文件存储(SFS 3.0)自动收集异常退出的JVM转储文件 存储多可用区部署的推荐配置
容器 工作负载推荐配置 合理分配容器计算资源 升级实例过程中实现业务不中断 通过特权容器功能优化内核参数 使用Init容器初始化应用 容器与节点时区同步 容器网络带宽限制的配置建议 使用hostAliases参数配置Pod的/etc/hosts文件 CCE容器中域名解析的最佳实践
己的业务使用量,按以下规格申请对应的虚机大小:1000pod+1000CM(300KB)推荐2U4G规格节点,2000pod+2000CM推荐4U8G规格节点,4000pod+4000CM推荐8U16G规格节点。 网络互通 开启后,支持CCE集群中的Pod与CCI集群中的Pod通过Kubernetes
己的业务使用量,按以下规格申请对应的虚机大小:1000pod+1000CM(300KB)推荐2U4G规格节点,2000pod+2000CM推荐4U8G规格节点,4000pod+4000CM推荐8U16G规格节点。 网络互通 开启后,支持CCE集群中的Pod与CCI集群中的Pod通过Kubernetes
通过CCE搭建IPv4/IPv6双栈集群 使用共享VPC创建CCE Turbo集群 集群日常管理实践 预防集群过载的配置建议 CCE集群高可用推荐配置 通过kubectl对接多个集群 集群视角的成本可视化最佳实践 集群安全实践 CCE集群安全配置建议 集群迁移实践 将K8s集群迁移到CCE
当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyter开发模型,然后使用fairing(SDK)等工具构
过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。 父主题: 升级前检查异常问题排查
PU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1.25及以上版本的集群中,ServiceAccount将不会自动创建对应的Secret。 1.21及以
若运行时为containerd且版本号小于 1.4.1-96则涉及该漏洞。 漏洞修复方案 使用可信的镜像,避免使用来源不明的第三方镜像,推荐使用容器镜像服务SWR。 CCE已提供大于1.4.1-96的containerd版本,请迁移至符合要求的节点。 相关链接 社区已经发布补丁
已创建一个CCE集群,具体操作步骤请参见购买Standard/Turbo集群。 已通过kubectl连接集群,详情请参见通过kubectl连接集群。 安装CoreDNS插件(推荐安装CoreDNS最新版本),详情请参见CoreDNS。 父主题: CoreDNS配置优化实践