检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置
Nginx Ingress使用建议 Nginx型的Ingress在集群中部署NGINX Ingress控制器来对流量进行负载均衡及访问控制。由于NGINX Ingress控制器插件使用开源社区的模板与镜像,且部署在集群内部,因此它的稳定性与使用时的配置、当前集群状态密切相关。本文介绍
工作负载异常:实例拉取镜像失败 问题定位 当工作负载状态显示“实例未就绪:Back-off pulling image "xxxxx"”,该状态下工作负载实例K8s事件名称为“实例拉取镜像失败”或“重新拉取镜像失败”。查看K8s事件的方法请参见Pod事件查看方法。 排查思路 根据具体事件信息确定具体问题原因
伸缩节点池 功能介绍 该API用于伸缩指定的节点池 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 调用方法 请参见如何调用API。 URI POST /api/v3/projects/{project_id}/clusters
Prometheus Server视图 Prometheus本地数据存储模式可以收集有关主机和应用程序的指标数据并存储在集群中,监控数据可以选择上报并存储到AOM或三方监控平台。Prometheus Server视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态
通过动态存储卷创建SFS子目录 通常情况下,在工作负载容器中挂载SFS类型的存储卷时,默认会将根目录挂载到容器中。为了更加经济合理地利用存储容量,CCE支持在创建PVC时动态创建SFS子目录,实现不同工作负载共享使用SFS。 仅通用文件系统(SFS 3.0)支持动态创建子目录。 前提条件
获取指定项目下的集群 功能介绍 该API用于获取指定项目下所有集群的详细信息。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是
为负载均衡类型的Service配置黑名单/白名单访问策略 使用负载均衡类型的服务时,您可以通过添加白名单和黑名单的方式控制访问负载均衡监听器的IP。 白名单:指定的IP允许访问,而其它IP不能访问。 黑名单:指定的IP不能访问,而其它IP允许访问。 配置黑名单/白名单访问策略后,如果您在
通过动态存储卷创建SFS Turbo子目录(推荐) 通常情况下,在工作负载容器中挂载SFS Turbo类型的存储卷时,默认会将根目录挂载到容器中。而SFS Turbo的容量最小为500G,超出了大多数工作负载所需的容量,导致存储容量的浪费。为了更加经济合理地利用存储容量,CCE支持在创建
删除集群 功能介绍 该API用于删除一个指定的集群。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI DELETE /api/v3/projects/{project_id}/
获取指定的集群 功能介绍 该API用于获取指定集群的详细信息。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id
用于配置ELB Ingress的注解(Annotations) 通过在YAML中添加注解Annotation(注解),您可以实现更多的Ingress高级功能。本文介绍在创建ELB类型的Ingress时可供使用的Annotation。 索引 功能分类 Ingress注解配置 ELB配置
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息
使用第三方镜像 操作场景 CCE支持拉取第三方镜像仓库的镜像来创建工作负载。 通常第三方镜像仓库必须经过认证(账号密码)才能访问,而CCE中容器拉取镜像是使用密钥认证方式,这就要求在拉取镜像前先创建镜像仓库的密钥。 前提条件 使用第三方镜像时,请确保工作负载运行的节点可访问公网。
工作负载异常:实例调度失败 问题定位 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。事件查看方法请参见工作负载状态异常定位方法。 排查思路 根据具体事件信息确定具体问题原因,如表1所示。 表1 实例调度失败 事件信息 问题原因与解决方案
使用Prometheus监控多个集群 应用场景 通常情况下,用户的集群数量不止一个,例如生产集群、测试集群、开发集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus
为Nginx Ingress配置跨域访问 在Web开发中,由于浏览器的同源策略,一个域下的网页通常不能直接请求另一个域下的资源。CORS(跨资源共享,Cross-Origin Resource Sharing)提供了一种安全的方式来绕过这个限制,允许跨域请求。 使用CORS允许跨域访问的场景较多
NGINX Ingress控制器 插件简介 Kubernetes通过kube-proxy服务实现了Service的对外发布及负载均衡,它的各种方式都是基于传输层实现的。在实际的互联网应用场景中,不仅要实现单纯的转发,还有更加细致的策略需求,如果使用真正的负载均衡器更会增加操作的灵活性和转发性能
同步节点池 功能介绍 该API用于同步节点池中已有节点的配置 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 调用方法 请参见如何调用API。 URI POST /api/v3/projects/:projectid/clusters
弹性伸缩 在Pod的编排与调度章节介绍了Deployment这类控制器来控制Pod的副本数量,通过调整replicas的大小就可以达到给应用手动扩缩容的目的。但是在某些实际场景下,手动调整一是繁琐,二是速度没有那么快,尤其是在应对流量洪峰需要快速弹性时无法做出快速反应。 Kubernetes