检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例。
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。
Prometheus指标采集 volcano-scheduler通过端口8080暴露Prometheus metrics指标。您可以自建Prometheus采集器识别并通过http://{{volcano-schedulerPodIP}}:{{volcano-schedulerPodPort}}/met
待纳管节点规格要求:CPU必须2核及以上,内存必须4GiB及以上,网卡有且仅能有一个。 如果使用了企业项目,则待纳管节点需要和集群在同一企业项目下,不然在纳管时会识别不到资源,导致无法纳管。从v1.21.15-r0、v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0
责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
Map<String,String> 参数解释: 集群标签,key/value对格式。 约束限制: 该字段值由系统自动生成,用于升级时前端识别集群支持的特性开关,用户指定无效。 取值范围: 不涉及 默认取值: 不涉及 creationTimestamp String 参数解释: 集群创建时间。
Map<String,String> 参数解释: 集群标签,key/value对格式。 约束限制: 该字段值由系统自动生成,用于升级时前端识别集群支持的特性开关,用户指定无效。 取值范围: 不涉及 默认取值: 不涉及 creationTimestamp String 参数解释: 集群创建时间。
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
事件监控 Kubernetes事件涵盖了集群的运行状态和各类资源的调度情况,对运维人员日常观察资源的变更以及定位问题均有帮助。为了实现这一目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录
开启集群过载控制 操作场景 过载控制开启后,将根据控制节点的资源压力,动态调整系统外LIST请求的并发限制,维护控制节点和集群的可靠性。 约束与限制 集群版本需为v1.23及以上。 开启集群过载控制 方式一:创建集群时开启 创建v1.23及以上集群时,可在创建集群过程中,开启过载控制选项。
手动续费 包年/包月的集群和节点从购买到被自动删除之前,您可以随时为其进行续费,以延长资源的使用时间。 续费集群 登录CCE控制台。 在集群列表页,在待续费的包年/包月集群右上角单击“续费”。 图1 续费集群 进入“续费”页面,确认无误后单击“是”。 图2 续费页面 选择集群的续
日志中心FAQ 索引 如何关闭日志中心? 插件中除log-operator外组件均未就绪 log-operator标准输出报错 节点容器引擎为docker时采集不到容器文件日志 日志无法上报,otel组件标准输出报错:log's quota has full 采集容器内日志,且采集目录配置了通配符,日志无法采集
使用SWR触发器自动更新工作负载版本 操作场景 容器镜像服务可搭配云容器引擎CCE一起使用,实现镜像版本更新时自动更新使用该镜像的应用。您只需要为镜像添加一个触发器,通过触发器,可以在每次生成新的镜像版本时,自动执行更新动作,如:自动更新使用该镜像的应用。 前提条件 更新应用镜像
如何获取接口URI中参数 项目ID(project_id) project_id即项目ID,可以通过控制台或API接口获取,具体请参见获取项目ID。 集群ID(cluster_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,进入集群详情页面,获取集群ID。
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
Region视角的成本洞察 为站在企业管理人员角色的角度,呈现整体Region级别成本分析报表。从云原生角度出发,用户可以灵活去组织成本。可以自由按照集群、命名空间粒度去归结成本到部门,形成部门的成本分析报告。并支持成本报表导出功能。 前提条件 已开通成本洞察功能 约束与限制 由
包年/包月转按需 创建一个包年/包月的集群或节点后,您可以将资源的计费模式转为按需计费,更加灵活地按需使用。 包年/包月转按需计费时,包年/包月的资源到期后,按需的资费模式才会生效。 前提条件 包年/包月转按需计费需要在“费用中心 > 续费管理”页面操作,只有订单状态是“使用中”的资源才能执行包年/包月转按需。