检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业
将Prometheus监控数据上报至第三方监控平台 操作场景 CCE云原生监控插件可以将集群中收集到的Prometheus指标,上报到您指定的监控平台,例如AOM,或者您也可以指定支持Prometheus数据的第三方监控平台。本文以对接第三方Prometheus实例为例,使用CC
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
Volcano是基于Kubernetes的批处理系统。Volcano提供了一个针对BigData和AI场景下,通用、可扩展、高性能、稳定的原生批量计算平台,方便AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等能力。 应用场景1:多类型作业混合部署
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳
使用Volcano调度工作负载 Volcano是一个基于Kubernetes的批处理平台,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,并针对计算型应用提供了作业调度、作业管理、队列管理等多项功能。
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
查询AddonTemplates列表 功能介绍 插件模板查询接口,查询插件信息。 调用方法 请参见如何调用API。 URI GET /api/v3/addontemplates 表1 Query参数 参数 是否必选 参数类型 描述 addon_template_name 否 String
与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 应用管理与运维平台(ServiceStage) ServiceStage应用管理与运维平台是一个应用托管和微服务管理平台,可以帮助企业简化部署、监控、运维和治理
es构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据等批量和弹
查询CCE服务下的资源配额 功能介绍 该API用于查询CCE服务下的资源配额。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/quotas 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
查询指定节点池支持配置的参数内容 功能介绍 该API用于查询指定节点池支持配置的参数内容。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepo
查询集群日志配置信息 功能介绍 获取集群组件上报的LTS的配置信息 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/cluster/{cluster_id}/log-configs 表1 路径参数 参数 是否必选 参数类型
查询指定模板实例历史记录 功能介绍 查询指定模板实例历史记录 调用方法 请参见如何调用API。 URI GET /cce/cam/v3/clusters/{cluster_id}/namespace/{namespace}/releases/{name}/history 表1 路径参数
查询API版本信息列表 功能介绍 该API用于查询CCE服务当前支持的API版本信息列表。 调用方法 请参见如何调用API。 URI GET / 请求参数 无 响应参数 状态码: 200 表1 响应Body参数 参数 参数类型 描述 versions Array of APIVersionDetail
查询指定集群支持配置的参数列表 功能介绍 该API用于查询CCE服务下指定集群支持配置的参数列表。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/configuration/detail
查询指定节点池支持配置的参数列表 功能介绍 该API用于查询CCE服务下指定节点池支持配置的参数列表。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{
华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书 通过CCE控制台获取集群证
GRPC检查可以为GRPC应用程序配置启动、活动和就绪探针,而无需暴露任何HTTP端点,也不需要可执行文件。Kubernetes可以通过GRPC 连接到工作负载并查询其状态。 GRPC检查仅在CCE v1.25及以上版本集群中支持。 使用GRPC检查时,您的应用需支持GRPC健康检查协议。 与HTTP和
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。