检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除控制节点云服务器组失败 Failed to delete the server group of master 重要 检查集群删除控制节点云服务器组是否成功。
展示所有集群升级前检查项详情),EvsSnapshot(使用EVS快照备份集群), LabelForSkippedNode(支持为集群升级过程中跳过的节点打标签), UpgradeStrategy(集群升级策略) Value: Support 支持,Disable 关闭,Default 使用CCE服务默认规则判断
是否允许修改 作用范围 containers 无 无 允许 - 镜像下载凭据 参数名 取值范围 默认值 是否允许修改 作用范围 imagePullSecrets 无 无 允许 - DNS策略 参数名 取值范围 默认值 是否允许修改 作用范围 dnsPolicy 无 无 允许 - 域名服务器
XGPU服务的隔离功能不支持以UVM的方式申请显存,即调用CUDA API cudaMallocManaged(),更多信息,请参见NVIDIA官方文档。请使用其他方式申请显存,例如调用cudaMalloc()等。
镜像地址获取方法如下:在CCE控制台,单击左侧导航栏的“镜像仓库”,进入容器镜像服务控制台。在“我的镜像 > 自有镜像”中,单击已上传镜像的名称,在“镜像版本 ”页签的“下载指令”栏中即可获取镜像地址,单击按钮即可复制该指令。
规则类型:选择“事件告警”,设置基于事件触发的告警规则,常见事件来源为Kubernetes事件和云服务事件。 规则详情: 参数 说明 场景示例 规则名称 自定义告警规则的名称 ReplicaSet副本数变化 描述(可选) 添加告警规则描述。
挂载点异常 MountPointProblem 检查节点上的挂载点是否异常 异常定义:该挂载点不可访问(cd) 典型场景:节点挂载了nfs(网络文件系统,常见有obsfs、s3fs等),当由于网络或对端nfs服务器异常等原因导致连接异常时,所有访问该挂载点的进程均卡死。
登录CCE控制台,选择一个已安装Prometheus的集群,在左侧导航栏中选择“服务”。 单击右上角“YAML创建”,创建一个公网LoadBalancer类型的Service。
Endpoint Web服务入口点的URL,可以从终端节点(Endpoint)中获取。 uri 资源路径,也即API访问路径。从具体接口的URI模块获取,请参见Kubernetes API。 获取集群所在区域的Token,获取方式请参见获取Token。 获取集群ID。
在SMN创建主题 SMN(Simple Message Notification,消息通知服务)是向订阅者主动推送消息的服务,订阅者可以是电子邮件、短信、HTTP和HTTPS等。 主题是消息发布或客户端订阅通知的特定事件类型。
解决方案: 确认报错unknown authority的第三方镜像服务器地址和端口。
集群管理员可以直接查询节点上的服务日志,可以帮助调试节点上运行的服务问题。如需使用此功能,请确保在该节点上启用了NodeLogQuery特性门控,并且kubelet配置选项enableSystemLogHandler和enableSystemLogQuery都设置为true。
container-2容器: kubernetes.AOM.log.stdout: '["container-1","container-2"]' - metrics.alpha.kubernetes.io/custom-endpoints AOM监控指标上报参数,可将指定指标上报是AOM服务
首先,您需要删除所有自建Prometheus相关的工作负载、服务以及其他资源,包含DaemonSet、Deployment、Statefulset、Service等。一般在monitoring命名空间下,请根据您实际安装的命名空间进行调整。
该方式通过BoundServiceAccountTokenVolume特性实现,能够提升服务账号(ServiceAccount)Token的安全性,Kubernetes 1.21及以上版本的集群中会默认开启。
按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。
IngressTLS:CCE提供的TLS密钥类型,用于存放7层负载均衡服务所需的证书。 其他:若需要创建其他类型的密钥,请手动输入密钥类型。 密钥数据 工作负载密钥的数据可以在容器中使用。
使用pull模式采集时间序列数据,这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的metrics。 可以采用push gateway的方式把时间序列数据推送至Prometheus server端。 可以通过服务发现或者静态配置去获取监控的targets。
须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 minReplicas 是 最小缩容实例数,取值范围为0~2147483647。