检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准, 越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证调用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。推荐使用AK/SK认证,其安全性比Token认证要高。
获取集群升级相关信息 功能介绍 获取集群升级相关信息 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/upgradeinfo 表1 路径参数 参数 是否必选 参数类型 描述 project_id
HTTPS类型负载均衡证书一致性检查异常处理 检查项内容 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集
1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 在v1.15.11-r1之后版本的集群中,CSI Everest插件已接管fuxi Flexvolume(即storage-driver插件)容器存储的所有功能,建议将对fuxi Flexvolume的使用切换CSI
1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 在v1.15.11-r1之后版本的集群中,CSI Everest插件已接管fuxi Flexvolume(即storage-driver插件)容器存储的所有功能,建议将对fuxi Flexvolume的使用切换CSI
续费概述 续费简介 包年/包月的集群或节点到期后会影响服务正常运行。如果您想继续使用,需要在指定的时间内为集群或节点进行续费,否则集群及节点等资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月的集群或节点,按需计费的资源不需要续费,只需要保证账户余额充足即可。 包年
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
全面修复Kubernetes权限许可和访问控制漏洞公告(CVE-2018-1002105) 漏洞详情 近日,Kubernetes社区发现安全漏洞CVE-2018-1002105。通过伪造请求,Kubernetes用户可以在已建立的API Server连接上提权访问后端服务,华为云容器服务已在第一时间完成全面修复。
更新AddonInstance 功能介绍 更新插件实例的功能。 调用方法 请参见如何调用API。 URI PUT /api/v3/addons/{id} 表1 路径参数 参数 是否必选 参数类型 描述 id 是 String 插件实例id 请求参数 表2 请求Header参数 参数
创建AddonInstance 功能介绍 根据提供的插件模板,安装插件实例。 调用方法 请参见如何调用API。 URI POST /api/v3/addons 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释:
集群升级后确认 功能介绍 集群升级后确认,该接口建议配合Console使用,主要用于升级步骤完成后,客户确认集群状态和业务正常后做反馈。 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters/{clust
获取集群升级路径 功能介绍 获取集群升级路径 调用方法 请参见如何调用API。 URI GET /api/v3/clusterupgradepaths 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式)
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针:
Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 使用场景 社区Pod结构体中没有ExtendPathMode,用户使用client-go调用创建pod或deployment的API接口时,创建的pod中没有ExtendPathMode。为
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
NGINX Ingress控制器插件升级导致集群内Nginx类型的Ingress路由访问异常 问题现象 集群中存在未指定Ingress类型(annotations中未添加kubernetes.io/ingress.class: nginx)的Nginx Ingress路由,NGINX
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
设置容忍策略 容忍度(Toleration) 允许调度器将Pod调度至带有对应污点的节点上。 容忍度需要和节点污点相互配合,每个节点上都可以拥有一个或多个污点,对于未设置容忍度的Pod,调度器会根据节点上的污点效果进行选择性调度,可以用来避免Pod被分配到不合适的节点上。更多关于容忍度的使用示例请参见污点和容忍度。