检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
无 无 允许 - 标签是资源对象的一种附加标识,可以通过标签进行过滤查询 配置建议: 用户按需将一些查询和管理维度(如配置项所属业务领域、微服务等)抽象为标签,方便对配置项进行过滤查询 父主题: 配置项
选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格确认”,确认所设置的服务选型参数、规格和费用等信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进
en,需要自己新建Secrets并挂载,详情请参见服务账号令牌Secret。 避免 IP 分配给服务的冲突 Kubernetes 1.24引入了一项新功能,允许为服务的静态IP地址分配软保留范围。 通过手动启用此功能,集群将从服务IP地址池中自动分配IP,从而降低冲突风险。 基于Go
通常这种场景下应用包含一个主容器和几个辅助容器(SideCar Container),如图1所示,例如主容器为一个web服务器,从一个固定目录下对外提供文件服务,而辅助容器周期性的从外部下载文件存到这个固定目录下。 图1 Pod 实际使用中很少直接创建Pod,而是使用Kubern
作负载,Prometheus会通过采集配置对这些指标进行采集。详情请参见使用云原生监控插件监控自定义指标。 对接AOM监控服务 AOM实例是应用运维管理服务(AOM)推出的Prometheus监控功能。启用后指标会上报到您选择的AOM实例,其中容器基础指标免费,其他指标按需收费。
String 参数解释: 服务器企业项目ID。CCE服务不实现EPS相关特性,该字段仅用于同步服务器企业项目ID。 约束限制: 创建节点/节点池场景:可指定已存在企业项目,当取值为空时,该字段继承集群企业项目属性。 更新节点池场景:配置修改后仅会对新增节点的服务器生效,存量节点需前往EPS界面迁移。
String 参数解释: 服务器企业项目ID。CCE服务不实现EPS相关特性,该字段仅用于同步服务器企业项目ID。 约束限制: 创建节点/节点池场景:可指定已存在企业项目,当取值为空时,该字段继承集群企业项目属性。 更新节点池场景:配置修改后仅会对新增节点的服务器生效,存量节点需前往EPS界面迁移。
网段规划建议 在集群网络构成中介绍集群中网络地址可分为集群网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 三个网段不能重叠,否则会导致冲突。且集群所在VPC下所有子网(包括扩展网段子网)不能和容器网段、服务网段冲突。 保证每个网段有足够的IP地址可用。 集群网段的IP地
efs-deployment-example.yaml 创建完成后,在CCE界面“存储管理 > 极速文件存储卷”中单击PVC名称,在PVC详情页面可查看极速文件存储服务和PVC的绑定关系。 父主题: 极速文件存储卷
启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请安装云原生监控插件并开启上报至AOM服务开关,同时前往“配置中心 > 监控运维配置”页开启dcgm-exporter组件的ServiceMonitor。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。
4.16及以上版本的Everest插件。 问题原因 cce_cluster_agency委托是CCE的系统委托,其中包含CCE组件需要的云服务资源操作权限,但不包含支付权限,详情请参见系统委托说明。在创建包周期的云硬盘存储卷时,要求包含支付权限,因此需要为cce_cluster_
将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务 使用HPA+CA实现工作负载和节点联动弹性伸缩 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx
/usr/local/bin/cce-agent-arm chown root:root /usr/local/bin/cce-agent-arm 重启cce-agent服务。 systemctl restart cce-agent 若您对上述执行过程有疑问,请联系技术支持人员。 父主题: 升级前检查异常问题排查
配置允许访问带认证的端点,会导致您需认证的端点可在集群内通过访问prometheus-lightweight服务的方式直接访问,因此请勿将prometheus-lightweight服务端口暴露至集群外部。 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“配置与密钥”
everest.io/sfsturbo-share-id 否 SFS Turbo的ID。 获取方法:在CCE控制台,单击顶部的“服务列表 > 存储 > 弹性文件服务”,并选择SFS Turbo。在列表中单击对应的极速弹性文件存储名称,在详情页中复制“ID”后的内容即可。 everest
默认取值: 不涉及 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式) 约束限制: GET方法不做校验 取值范围: application/json application/json;charset=utf-8
参数类型 描述 topics Array of strings 参数解释: 联系组列表。填写SMN主题名称,通过配置告警联系组,分组管理订阅终端,接收告警信息。 约束限制: 不涉及 alarmRuleTemplateId String 参数解释: 开启告警助手时传入告警模板ID。默认采用容器场景下的告警规则模板。
节点文件系统只读 FilesystemIsReadOnly 次要 检查节点文件系统是否只读。 Node 节点ntp服务故障 NTPIsDown 次要 检查节点NTP服务是否正常。 Node 节点卸载失败 NodeUninstallFailed 次要 检查节点卸载是否成功。 Node
离模式的工作负载。 v1.27及以下的集群中,使用GPU虚拟化后,不支持使用Autoscaler插件自动扩缩容GPU虚拟化节点。 XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文
spec: endpoints: # 定义要监控的服务的端点,包括名称、端口、路径、协议等信息 - interval: 30s # 表示Prometheus Operator将每30秒检查一次服务是否需要添加到监控目标列表中 port: http