检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WindowSize:为int型整数,不小于1,默认为10。 记录副本数变更的次数,负载变化规律、周期性明显时可适当调低;变化不规律,副本数频繁变化需要调大。若过大会导致学习周期变长,记录事件过多。 lifecycle.MaxGrade:为int型整数,不小于3,默认为3。 副本
的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules Prometheus提供了Prometheus
使用云原生监控插件监控自定义指标 CCE提供了云原生监控插件,支持使用Prometheus监控自定义指标。 本文将通过一个Nginx应用的示例演示如何使用Prometheus监控自定义指标,步骤如下: 安装并访问云原生监控插件 CCE提供了集成Prometheus功能的插件,支持一键安装。
CCE集群中工作负载镜像的拉取策略有哪些? 容器在启动运行前,需要镜像。镜像的存储位置可能会在本地,也可能会在远程镜像仓库中。 Kubernetes配置文件中的imagePullPolicy属性是用于描述镜像的拉取策略的,如下: Always:总是拉取镜像。 imagePullPolicy:
l说明。 缩容节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。缩容节点时使用了本地持久存储卷的Pod会从缩容的节点上被驱逐,并重新创建Pod,Pod会一直处于pending状态,因为Pod使用的PVC带有节点标签,由于冲突无法调度成功。
CCE突发弹性引擎(对接CCI)。 说明: 安装CCE容器存储(Everest)、节点本地域名解析加速、Volcano调度器、CCE节点故障检测插件不需要设置此参数。 请求示例 以下请求示例将创建一个VPC网络模式的集群,并指定安装了CoreDNS域名解析和CCE容器存储(Everest)插件。 { "kind":
r临时存储等。容器引擎空间的剩余容量将会影响镜像下载和容器的启动及运行。 容器引擎和容器镜像空间(默认占90%):用于容器运行时工作目录、存储容器镜像数据以及镜像元数据。 Kubelet组件和EmptyDir临时存储(默认占10%):用于存储Pod配置文件、密钥以及临时存储EmptyDir等挂载数据。
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tens
在线离线业务混部:支持集群内在离线作业混部以及节点CPU和内存资源超卖,提升集群整体资源利用率。 建议搭配使用 GPU加速云服务器 + 弹性负载均衡ELB + 对象存储服务OBS 图1 AI计算 父主题: 应用场景
r临时存储等。容器引擎空间的剩余容量将会影响镜像下载和容器的启动及运行。 容器引擎和容器镜像空间(默认占90%):用于容器运行时工作目录、存储容器镜像数据以及镜像元数据。 Kubelet组件和EmptyDir临时存储(默认占10%):用于存储Pod配置文件、密钥以及临时存储EmptyDir等挂载数据。
是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
删除模板 功能介绍 删除模板 调用方法 请参见如何调用API。 URI DELETE /v2/charts/{chart_id} 表1 路径参数 参数 是否必选 参数类型 描述 chart_id 是 String 模板的ID 请求参数 表2 请求Header参数 参数 是否必选 参数类型
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败
设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs
需填写第三方监控系统的地址和Token,并选择是否跳过证书认证。 本地数据存储:将普罗数据存储在集群中的PVC存储卷里,选择用于存储监控数据的磁盘类型和大小。存储卷不随插件卸载而删除。开启本地数据存储时,将部署全量组件,详情请参见组件说明。 若monitoring命名空间下已存
集群内访问(ClusterIP) 节点访问(NodePort) CCE Standard集群 共享型负载均衡 不支持 支持 独享型负载均衡 不支持 支持 CCE Turbo集群 共享型负载均衡 不支持 支持 独享型负载均衡 支持 不支持 说明: CCE Turbo集群中的Pod实例单独绑定ENI
是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
功能介绍 获取集群所有已安装插件实例 调用方法 请参见如何调用API。 URI GET /api/v3/addons 表1 Query参数 参数 是否必选 参数类型 描述 cluster_id 是 String 集群 ID,获取方式请参见如何获取接口URI中参数 请求参数 表2 请求Header参数
下载模板 功能介绍 下载模板 调用方法 请参见如何调用API。 URI GET /v2/charts/{chart_id}/archive 表1 路径参数 参数 是否必选 参数类型 描述 chart_id 是 String 模板的ID 请求参数 表2 请求Header参数 参数 是否必选