检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开
如何设置CCE集群中的VPC网段和子网网段? VPC中的子网网段一旦创建,便无法更改。创建虚拟私有云时,请预留一定的VPC网段和子网网段资源,避免后续无法扩容。 子网网段可在“创建虚拟私有云”页面的“子网配置 > 子网网段”中进行设置。在设置选项下可查看到“可用IP数”。 容器网
检查项详情),EvsSnapshot(使用EVS快照备份集群), LabelForSkippedNode(支持为集群升级过程中跳过的节点打标签), UpgradeStrategy(集群升级策略) Value: Support 支持,Disable 关闭,Default 使用CCE服务默认规则判断
作为节点来构建高可用的Kubernetes集群。 CCE提供的节点相关功能包括:购买节点、纳管已有节点到集群、登录节点、节点监控、管理节点标签、同步节点信息、重置节点、删除节点、节点关机等。 节点概述 购买节点 节点池管理 CCE Standard集群、CCE Turbo集群支持
Standards)。 关于如何在Pod或容器中设置Security Context,请参见为Pod或容器配置Security Context。 Pod Security Admission标签 Kubernetes为Pod Security Admission定义了三种标签,如表2,您可以
使用CCE设置工作负载访问方式时,端口如何填写? CCE支持工作负载的内部互访和被互联网访问两种方式。 内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。 表1 内部访问类型说明 内部访问类型 说明 端口如何填写 集群内访问(通过集群虚拟IP)
容器如何访问VPC内部网络 前面章节介绍了使用Service和Ingress访问容器,本节将介绍如何从容器访问内部网络(VPC内集群外),包括VPC内访问和跨VPC访问。 VPC内访问 根据集群容器网络模型不同,从容器访问内部网络有不同表现。 容器隧道网络 容器隧道网络在节点网络
如何制作Docker镜像?如何解决拉取镜像慢的问题? Docker镜像制作 关于如何通过Dockerfile定制一个简单的Web应用程序的Docker镜像,请参见Docker基础知识或如何制作Docker镜像? 拉取镜像加速 由于运营商网络问题可能导致公共镜像仓库中的镜像拉取速度
object 资源标签选择器,仅节点检查涉及该参数,集群检查和插件检查不涉及 表10 resourceSelectorResponse 参数 参数类型 描述 key String 标签键值 values Array of strings 标签值列表 operator String 标签值 表11
存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳-值对组成。而PromQL是Prometheus的核心组件之一,使用标识符和标签组成的简单表达式对时间序列进行筛选和聚合,使用户能够根据需要快速定位和解决问题。 有关PromQL的更多使用方法,请参见查询Prometheus。
重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。 图1 重置节点 重置节点会重置所有节点标签,可能影响工作负载调度,请在重置节点前检查并保留您手动为该节点打上的标签。 解决方案二 新建节点后,删除问题节点。 父主题: 升级前检查异常问题排查
请参见如何调用API。 URI PUT /api/v3/projects/{project_id}/clusters/{cluster_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。
CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略 支持集群下的节点跨子网(容器隧道网络)
如何调用API 构造请求 认证鉴权 返回结果
在CCE控制台使用GPU资源,只需在创建工作负载时,选择使用的GPU配额即可。 图1 使用GPU GPU节点标签 创建GPU节点后,CCE会给节点打上对应标签,如下所示,不同类型的GPU节点有不同标签。 $ kubectl get node -L accelerator NAME
检查到节点属于默认节点池,但是含有普通节点池标签,将影响升级流程 由节点池迁移至默认节点池的节点,"cce.cloud.com/cce-nodepool"该标签影响集群升级。请确认该节点上的负载调度是否依赖该标签: 若无依赖,请删除该标签。 若存在依赖,请修改负载调度策略,解除依赖后再删除该标签。 检查到节点
使用SWR企业版镜像仓库镜像 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置容忍策略 设置标签与注解 父主题: 工作负载
CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略 支持集群下的节点跨子网(容器隧道网络)
开通过程中系统将自动执行如下步骤:安装云原生监控插件、成本标签激活、创建默认租户OBS桶、订阅账单数据。等待3-5分钟,即可进入洞察界面。 安装云原生监控插件:为成本洞察功能提供基础监控数据。 成本标签激活:成本标签激活后费用中心导出的账单会增加集群的标签,成本洞察后台将按照集群进行分类。该步骤完
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prometheus绑定