检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ACTIVE)情况下,更高的占用率表示更有效的GPU使用率。 DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Gauge % 表示Tensor(HMMA/IMMA) Pipe处于Active状态的周期分数。 该值表示一个时间间隔内的平均值,而不是瞬时值。 较高的值表示Tensor
kubectl连接集群。 约束与限制 该特性仅在使用独享型ELB时支持配置。 该特性依赖ELB高级转发策略,开启后将不再根据域名/路径匹配确定优先级,请您根据实际需要自定义转发策略优先级。关于转发策略优先级详情请参见ELB Ingress转发策略优先级说明。 通过kubectl命令行配置
建的云硬盘,根据需要进行删除。 前往云硬盘控制台。 通过名称“pvc-{uid}”进行过滤,得到所有由CCE自动创建的云硬盘实例。 通过F12进入浏览器开发人员工具,查看detail接口中的MetaData字段包含集群ID信息,说明该云硬盘由此集群创建。 您可以根据上述信息将集群下残留的云硬盘资源删除。
CCE启动实例失败时的重试机制是怎样的? CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 在Kubernetes中,Pod的spec中包含一个res
从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题: 附录
targetVersion String 升级目标版本 skippedCheckItemList Array of skippedCheckItemListResponse objects 跳过检查的项目列表 表9 skippedCheckItemListResponse 参数 参数类型
CE容器弹性引擎插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据CCE推荐的预置值设置插件规格,可满足大多数场景,具体数值请以控制台显示为准。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 副本
希望调度的目标节点标签。Kubernetes只会将Pod调度到拥有指定标签的节点上。 前提条件 您需要为目标节点添加自定义标签,工作负载可根据该节点标签进行调度,操作步骤请参见添加/删除节点标签。 创建指定节点调度的工作负载 使用kubectl连接集群,具体操作请参见通过kubectl连接集群。
检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案: 若租户已经欠费,请尽快续费。 若ECS节点资源不足,使用其他规格节点替代。 若ECS或内存配额不足,请扩大配额。
selector: app: sample-app type: ClusterIP 该应用将暴露指标container_memory_working_set_bytes_per_second,用于查看容器每秒的工作内存大小。 创建工作负载。 kubectl apply -f sample-app
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
ckup对象,并查询集群相关的数据和资源进行备份,并将数据打包上传至S3协议兼容的对象存储中,各类集群资源将以JSON格式文件进行存储。 目标集群应用恢复 在目标集群中进行还原时,Velero将指定之前存储备份数据的临时对象桶,并把备份的数据下载至新集群,再根据JSON文件对资源进行重新部署。
Controller优化设置 使用合适的副本数和资源限制 默认情况下,通过插件中心安装的Nginx Ingress Controller的实例数为2,您可以根据业务的实际需要进行调整。 在部署Nginx Ingress Controller时,多实例会默认分配到不同可用区或者是同一可用区的不同节点。
memory: 200Mi imagePullSecrets: - name: default-secret Pod有了Label后,在查询Pod的时候带上--show-labels就可以看到Pod的Label。 $ kubectl get pod --show-labels NAME
请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl restart NetworkManager命令后重新查询状态。 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。
}}%" description: "集群CPU实际使用率超过50%, 集群当前CPU使用率为{{ printf \"%.2f\" $value }}%" 配置成功后,可以访问Prometheus的Web页面,在“Alert”页面查询告警规则是否触发或者生效。 Pro
app: nginx # 选择标签为app:nginx的Pod clusterIP: None # 必须设置为None,表示Headless Service 创建后查看PVC和Pod状态,如下所示,可以看到PVC都已经创建并绑定成功,而有一个Pod处于Pending状态。
在弹出的“删除节点”窗口中,输入“DELETE”,单击“是”,等待完成节点删除。 删除节点后,原有节点上的工作负载实例会自动迁移至其他可用节点。 节点上绑定的磁盘和EIP如果属于重要资源请先解绑,否则会被级联删除。 退订包年/包月节点 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。
力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。
服务一直保留?如何设定? 问题建议 Kubelet会按照下面的标准对Pod的驱逐行为进行评判: 根据服务质量:即BestEffort、Burstable、Guaranteed。 根据Pod调度请求的被耗尽资源的消耗量。 接下来,Pod按照下面的顺序进行驱逐(QOS): BestEffort