检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
负载均衡器类型。 取值如下: union:共享型负载均衡。 performance:独享型负载均衡,仅支持1.17及以上集群(推荐) 配置建议: 推荐配置为performance,独享型ELB实例支持原地址保持,直通容器等高级特性 共享型ELB不支持源地址保持,在CCE Turb
负载均衡器类型。 取值如下: union:共享型负载均衡。 performance:独享型负载均衡,仅支持1.17及以上集群(推荐) 配置建议: 推荐配置为performance,独享型ELB实例支持原地址保持,直通容器等高级特性 共享型ELB不支持源地址保持,在CCE Turb
ELB类型可选择“独享型”或“共享型”。独享型ELB规格需要支持应用型(HTTP/HTTPS),且网络类型必须支持私网。 创建方式可选择“选择已有”或“自动创建”。不同创建方式的配置详情请参见表1。 当集群使用共享VPC时,不支持自动创建共享型ELB。 表1 ELB配置 创建方式
留底层存储卷。 volumeHandle 是 使用通用文件系统(SFS 3.0)时,填写文件存储的名称。 everest.io/share-export-location 是 通用文件系统(SFS 3.0)的共享路径。 共享路径格式如下: {your_sfs30_name}.sfs3
华为云上的Kubernetes集群管理面托管在CCE管理平台上,证书也在CCE的管理平台上,不对用户开放,这个证书在平台上会定期维护,不会出现过期的情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书 通过CCE控制台获取集群证
说明: 1.10.5及以上版本的插件不再支持该插件,请使用xgpu插件。 小数GPU配置的前提条件为CCE集群GPU节点为共享模式,检查集群是否关闭GPU共享,请参见修改CCE集群配置中的enable-gpu-share参数。 - - plugins: - name: 'cc
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。
通过静态存储卷使用已有极速文件存储 极速文件存储(SFS Turbo)是一种具备高可用性和持久性的共享文件系统,适合海量的小文件、低延迟高IOPS的应用。本文介绍如何使用已有的极速文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群,并且在该集群中安装CCE容器存储(Everest)。
使用AOM监控自定义指标 CCE支持上传自定义指标到AOM,节点上的ICAgent会定期调用负载中配置的监控指标接口读取监控数据,然后上传到AOM上。 图1 ICAgent采集监控指标 负载的自定义指标接口可以在创建时配置。本文将通过一个Nginx应用的示例演示如何上报自定义监控指标到AOM,步骤如下:
DNAT网关(DNAT) 操作场景 “DNAT网关”可以为集群节点提供网络地址转换服务,使多个节点可以共享使用弹性IP。 NAT网关与弹性IP方式相比增强了可靠性,弹性IP无需与单个节点绑定,任何节点状态的异常不影响其访问。访问方式由公网弹性IP地址以及设置的访问端口组成,例如“10
集群网络模型选择及各模型区别 CCE集群实现访问跨VPC网络通信 使用VPC和云专线实现容器与IDC之间的网络通信 自建IDC与CCE集群共享域名解析 通过负载均衡配置实现会话保持 不同场景下容器内获取客户端源IP 通过配置容器内核参数增大监听队列长度 为负载均衡类型的Service配置pass-through能力
基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。
集群调度器配置 开启GPU共享 是否开启GPU共享能力 参数名 取值范围 默认值 是否允许修改 作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议: true 默认调度器 集群调度器选择开关,用户可自定义调度器模式。
SFS(弹性文件存储)资源的扩容共享。 sfsturbo:*:get* - SFS Turbo(极速弹性文件存储)服务所有资源详情的查看权限。 sfsturbo:shares:ShareAction - SFS Turbo(极速弹性文件存储)资源的扩容共享。 tms:resourceTags:list
api.example.com),前端应用在尝试从API服务获取数据时会遇到跨域资源共享问题,需要配置CORS允许跨域访问。 第三方服务集成:网站可能需要调用第三方服务(例如地图服务、社交平台登录等)的API接口,则需要配置CORS允许跨域访问。 使用内容分发网络CDN:静态资
维度数据洞察、仪表盘的功能。 云原生监控插件也提供了基于RemoteWrite对接三方云原生监控平台的能力,将集群内的监控指标通过Bearer Token认证鉴权的方式上报三方监控平台。 Prometheus监控 Prometheus已经成为了当前云原生可观测性的最常见工具,其强
Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。 指标说明 Prometheus
api.example.com),前端应用在尝试从API服务获取数据时会遇到跨域资源共享问题,需要配置CORS允许跨域访问。 第三方服务集成:网站可能需要调用第三方服务(例如地图服务、社交平台登录等)的API接口,则需要配置CORS允许跨域访问。 使用内容分发网络CDN:静态资
CCE突发弹性引擎(对接 CCI)作为一种虚拟的kubelet用来连接Kubernetes集群和其他平台的API。Bursting的主要场景是将Kubernetes API扩展到无服务器的容器平台(如CCI)。 基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负