检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
批量计算 在CCE集群中部署使用Kubeflow 在CCE集群中部署使用Caffe 在CCE集群中部署使用Tensorflow 在CCE集群中部署使用Flink 在CCE集群中部署使用ClickHouse 在CCE集群中部署使用Spark
匹配实际节点ECS/BMS规格分类 vm:弹性云服务器 ElasticBMS:C6型弹性裸金属通用计算增强型云服务器,规格示例:c6.22xlarge.2.physical pm: 裸金属服务器 不填写时默认为vm 父主题: 节点池
裸金属服务器:基于裸金属服务器部署容器服务,需要挂载本地盘或支持挂载云硬盘。 CCE Turbo集群: 弹性云服务器-虚拟机:基于弹性云服务器部署容器服务,仅支持可添加多张弹性网卡的机型。 弹性云服务器-物理机:基于擎天架构的服务器部署容器服务。 父主题: 节点
同步云服务器 操作场景 集群中的每一个节点对应一台云服务器,集群节点创建成功后,您仍可以根据需求,修改云服务器的名称或变更规格。由于规格变更对业务有影响,建议一台成功完成后再对下一台进行规格变更。 CCE节点的部分信息是独立于弹性云服务器ECS维护的,当您在ECS控制台修改云服务
修改云服务器的企业项目 云服务器组不一致 将云服务器的云服务器组修改成与节点池的云服务器组一致。 修改云服务器的云服务器组 修改云服务器的规格 待纳管云服务器规格需修改成节点池中包含的规格。 更多操作指导请参见ECS变更规格通用操作。 登录ECS控制台。 单击目标云服务器名称,
您的业务造成更大的影响,系统会对受影响的ECS实例生成云服务器事件并进行上报,例如实例重部署、系统维护等。 您可以在弹性云服务器ECS控制台管理云服务器事件,详情请参考弹性云服务器事件概述。 使用场景 云服务器事件处理过程中可能出现云服务器不可用等现象,影响对应Node节点和Po
由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
负载均衡器配置:后端云服务器组 后端云服务器组的负载均衡算法 服务对接的后端实例会在一个后端云服务器组中,此参数支持配置后端云服务器组的负载均衡算法。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.lb-algorithm
复用等机制减少集群资源的空闲比例。 价值 面向AI计算的容器服务,采用高性能GPU计算实例,并支持多容器共享GPU资源,在AI计算性能上比通用方案提升3~5倍以上,并大幅降低了AI计算的成本,同时帮助数据工程师在集群上轻松部署计算应用,您无需关心复杂的部署运维,专注核心业务,快速实现从0到1快速上线。
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
负载均衡器配置:后端服务器(组)配置 会话保持模式 监听器的会话保持类型 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation: kubernetes.io/elb.session-affinity-mode HTTP_COOKIE、APP_COOKIE
为ELB Ingress配置服务器名称指示(SNI) SNI证书是一种扩展服务器证书,允许同一个IP地址和端口号下对外提供多个访问域名,可以根据客户端请求的不同域名来使用不同的安全证书,确保HTTPS通信的安全性。 在配置SNI时,用户需要添加绑定域名的证书,客户端会在发起SSL
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
普通运行时 容器所在节点类型 弹性云服务器-物理机 弹性云服务器-虚拟机 弹性云服务器-物理机 容器引擎 Containerd Docker、Containerd 容器运行时 Kata runC 容器内核 独占内核 与宿主机共享内核 容器隔离方式 轻量虚拟机 Cgroups和Namespace
云原生异构计算插件 CCE AI套件(NVIDIA GPU) CCE AI套件(Ascend NPU) 父主题: 插件
、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。 节点自动伸缩 CCE突发弹性引擎(对接CCI) 将Kubernetes API扩展到无服务器的容器平台(如CCI),无需关心节点资源。 适合在线突增流量、CI/CD、大数据作业等场景。 CCE容器实例弹性伸缩到CCI服务
合理分配容器计算资源 只要节点有足够的内存资源,那容器就可以使用超过其申请的内存,但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存,这个容器将会被优先结束。如果容器持续使用超过限制的内存,这个容器就会被终结。如果一个结束的容器允许重启,kubelet就会重启它,但是会出现其他类型的运行错误。
需及时、自动扩展云计算资源。 视频直播客户业务负载变化难以预测,需要根据CPU/内存使用率进行实时扩缩容。 游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根据用户的业务需求预设策略自动调整计算资源,使云服务器或容器数量自动随业务