检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点池绑定的云服务器组不存在,可能由于用户手动删除了云服务器组导致。 请登录CCE控制台,在左侧导航栏中单击“节点管理”,并单击节点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已
登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker logs $containerID 根据日志提示修复工作负载本身的问题。 查看操作系统的错误日志。 cat /var/log/messages
事件 查看PVC或PV的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间,便于定位问题。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”或“存储卷”页签。 单击目标实例操作列的“事件”,即可查看1小时内的事件(事件保存时间为1小时)。 查看YAML
参数 说明 取值 控制器访问kube-apiserver的QPS kube-api-qps 与kube-apiserver通信的QPS,即每秒查询率。 集群规格为1000节点以下时,默认值为100 集群规格为1000节点及以上时,默认值为200 控制器访问kube-apiserver的突发流量上限
数可根据情况按需填写,详情请参见通过动态存储卷使用云硬盘。 图1 加密存储卷 单击“创建”。 前往“存储卷声明”页面,查看加密云硬盘存储卷声明是否创建成功,并查看存储配置项是否显示已加密。 图2 PVC加密 在应用中使用加密PVC时,和使用普通PVC的方法一致。 通过kubectl自动创建加密云硬盘
更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 表示集群休眠任务下发成功,需持续查询集群状态,当集群状态变为Hibernation后表示休眠成功 错误码 请参见错误码。 父主题: 集群管理
用户可以对物理连接添加备注信息。 联系人姓名/手机/Email 用户可以在此提供用户侧专线负责人信息。 注意:如不提供负责人信息,将只能通过账号信息查询,会增加需求确认时长。 购买时长 购买专线服务的时长。 自动续费 自动续费时长与购买时长相同。 例如:用户购买时长为三个月,当勾选该项后,将自动续费三个月,以此类推。
19 v1.21 插件性能优化,降低资源消耗 1.2.11 v1.15 v1.17 v1.19 v1.21 从K8s Metrics API查询资源指标 计算资源利用率时考虑未就绪的Pod 1.2.10 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
事件 查看PVC或PV的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间,便于定位问题。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”或“存储卷”页签。 单击目标实例操作列的“事件”,即可查看1小时内的事件(事件保存时间为1小时)。 查看YAML
登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“配置中心”,切换至“网络配置”页签。 查看“容器网络配置”,以default-network(默认容器子网)为例,复制容器子网的“IPv4网段”。 在左侧导航栏中选择“总览”,查看“网络信息”,单击“节点默认安全组”,跳转到安全组页面。 选择“入方向
资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩
务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC ID进行过滤,得到该虚拟私有云下所有的弹性负载均衡实例。 查看负载均衡实例下的监听器详情,描述中包含集群ID、Service ID等信息,说明该监听器由此集群创建。 您可以根据上述信息将集群下残留的弹性负载均衡相关资源删除。
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控系统,
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。 您已选择操作的资源(高亮显示)和其他资源有关联关系,请确认是否同时操作。
事件 查看PVC或PV的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间,便于定位问题。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”或“存储卷”页签。 单击目标实例操作列的“事件”,即可查看1小时内的事件(事件保存时间为1小时)。 查看YAML