检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加固VPC安全组规则 CCE作为通用的容器平台,安全组规则的设置适用于通用场景。用户可根据安全需求,通过网络控制台的安全组找到CCE集群对应的安全组规则进行安全加固。 详情请参见如何加固CCE集群的自动创建的安全组规则? 节点应按需进行加固 CCE服务的集群节点操作系统配置与开源操作系统
LoadBalancer ) 选择服务类型,即服务访问的方式。不同的服务类型的差别请参见服务概述。 负载均衡器 类型:选择独享型。 可用区:至少选择一个可用区,如可用区1。 弹性公网IP:选择自动创建。 其余参数可保持默认。 如果已有负载均衡(ELB)实例,可以选择已有ELB。
9-r10、v1.25.4-r10、v1.27.1-r10及以上版本的集群支持。 取值: 单值:单个返回码,例如"200"。 列表:多个特定返回码,例如"200,202"。 区间:一个返回码区间,例如"200-204"。 默认值:200,取值范围1-64个字符 仅支持HTTP设置该字段,其他协议设置不会生效。
期和保留期。 图1 竞价计费资源生命周期 欠费预警 系统会在每个计费周期后对竞价计费资源进行扣费。当您的账户被扣为负值时,我们将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 欠费后影响 当您的账号因竞价计费资源自动扣费导致欠费后,账号将变成欠费状态。欠费后,资源不会立即
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示删除节点池作业下发成功。 错误码 请参见错误码。 父主题: 节点池管理
example.com 配置永久重定向的返回状态码 配置永久重定向时,您可以通过nginx.ingress.kubernetes.io/permanent-redirect-code注解修改永久重定向的返回状态码。例如将永久重定向的状态码设置为308: nginx.ingress.kubernetes
修复了为业务容器自动挂载npu-smi失败的问题 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题 2.0.5 v1
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示获取指定节点池成功。 错误码 请参见错误码。 父主题: 节点池管理
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示在指定集群下重置节点的作业下发成功。 错误码 请参见错误码。 父主题: 节点管理
Engine,简称CCE)是一个企业级的Kubernetes集群托管服务,支持容器化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。 集群类型 CCE Standard集群:是云容器引擎服务的标准版本集群,提供商用级容器集群服务,并完全兼容开源Kubernetes集群标准功
置高可用容灾、自动弹性伸缩、发布公网、灰度升级等。 中间件部署平台:CCE集群可以作为中间件的部署平台,使用StatefulSet、PVC等资源配置,能够实现应用的有状态化,同时配套弹性负载均衡实例,可实现中间件服务的对外发布。 执行普通任务、定时任务:使用容器化方式运行Job、
无法访问 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 与服务Pod不同节点 访问服务端所在节点IP+NodePort — 正常访问 访问非服务端所在节点IP+NodePort — 无法访问 访问服务端所在节点IP+NodePort
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示同步节点成功。 错误码 请参见错误码。 父主题: 节点管理
ernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度器最初主要是为长期运行的服务设计的,对于AI、大数据
附录 状态码 错误码 获取项目ID 获取账号ID 创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载
名为grafana-oss的LoadBalancer类型的服务。如果LoadBalancer服务对接的ELB绑定了EIP,可直接使用浏览器输入“eip:port”地址进行访问。 开启“公网访问”将会把开源Grafana服务暴露至公网访问,建议评估安全风险并做好访问策略的管控。 监控容器网络扩展指标
工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题 工作负载状态正常但未正常工作 挂载文件存储的节点,Pod创建删除卡死 容器异常退出状态码 父主题: 工作负载
CCE节点故障检测 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-