检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tensorflow的ML范例,加以简单的修改。 basicClass.py # TensorFlow and tf.keras import
name}是Pod名称,{pod id}是Pod的ID,{container name}是容器名称。 # 获取Pod ID crictl pods | grep {pod name} | awk '{print $1}' # 获取完整容器ID crictl ps --no-trunc | grep {pod
project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
exec程序中存在一处权限提升漏洞(CVE-2021-4034,亦称PwnKit),攻击者通过在其默认配置中利用此漏洞实现用任何非特权用户获取易受攻击主机的完全root权限,目前漏洞POC/EXP已公开,风险较高。 Polkit(PolicyKit)是一个用于在类Unix操作系统
Ingress对象(属于networking.k8s.io或extensions API 组)的权限,可能绕过注解验证并注入任意命令,从而获取ingress-nginx控制器的凭证,并访问集群中的所有敏感信息。 判断方法 若CCE集群中安装了NGINX Ingress控制器插件,且版本号在3
2357Mi 109% 问题根因 出现该问题的原因是kubectl top node是调用kubelet的metrics API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com/kuberne
由于Prometheus(停止维护)仅支持v1.21及之前的集群版本,若您需要将集群升级至v1.21以上,您需要将停止维护的Prometheus插件迁移至云原生监控插件,以获取后续的技术支持。本文将指导您将已经停止维护的Prometheus插件迁移至云原生监控插件。 云原生监控插件与Prometheus插件的对比如下:
根据GPU/NPU卡信息定位使用该卡的Pod 在CCE中使用GPU/NPU卡时,无法直接获取到使用该卡的Pod。您可以根据GPU/NPU卡的信息,通过kubectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。 前提条件 已创建CCE集群,且配置了kub
l命令。它支持通过标准的Web浏览器和HTTP协议提供远程CLI,提供灵活的接口便于集成到独立系统中,可直接作为一个服务连接,通过cmdb获取信息并登录服务器。 web-terminal可以在Node.js支持的所有操作系统上运行,而不依赖于本机模块,快速且易于安装,支持多会话。
}/quotas 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 请求参数 表2 请求Header参数 参数
通过X509证书连接集群 操作场景 通过控制台获取集群证书,使用该证书可以访问Kubernetes集群。 操作步骤 登录CCE控制台,单击集群名称进入集群。 查看集群总览页,在右边“连接信息”下证书认证一栏,单击“下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。
部署应用Pod并通过挂载身份提供商获取OIDC Token文件。 Pod内程序使用挂载的OIDC Token文件访问IAM获取临时的IAM Token。 Pod内程序使用IAM Token访问云服务。 图1 工作流程 步骤一:获取CCE集群的签名公钥 使用kubectl连接集群。 执行如下命令获取公钥。 kubectl
project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
情况。 X509证书在Kubernetes集群上也是默认开启的,更新平台自动会维护更新。 获取集群证书 通过CCE控制台获取集群证书,使用该证书可以访问Kubernetes,详情请参见获取集群证书。 父主题: 集群创建
集群API方式:(推荐)集群API需要使用证书认证访问。直接连接集群API Server,适合大规模调用。 API网关方式:API网关采用token方式认证,需要使用账号信息获取token。适合小规模调用场景,大规模调用时可能会触发API网关流控。 详情请参见使用Kubernetes API。 父主题: API&kubectl
应用场景 集群中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM
冻结或不可用的集群删除后如何清除残留资源 处于非运行状态(例如冻结、不可用状态)中的集群,由于无法获取集群中的PVC、Service、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC
具备了CAP_NET_RAW能力的容器实例时,就可以获取在目标节点上监听了127.0.0.1的服务socket信息。如果在目标主机上存在127.0.0.1可以访问到且不需要任何认证鉴权的暴露服务,那么该服务信息就能被攻击者获取。问题详情请参见Placeholder issue。 可能的攻击者:
务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响; 如需帮助,请提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“健康中心”。