检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CoreDNS视图指标清单 指标 类型 说明 coredns_dns_request_count_total counter 记录所有请求查询的累计值 coredns_dns_requests_total counter DNS请求的总数 coredns_dns_request_type_count_total
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自
CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。
实例家族。 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 通用计算增强型 通用计算增强型弹性云服务器是CPU独享型实例,实例间无CPU资源争抢,性能强劲稳定,搭载全新网络加速引擎,提供更高的网络性能。
群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。 您已选择操作的资源(高亮显示)和其他资源有关联关系,请确认是否同时操作。
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。 低于v1.23
源ID。 图1 复制资源ID 登录CCE控制台,选择集群所在的区域,在筛选条件中选择“集群ID”,并输入2中复制的资源ID即可查找到该资源。 图2 查找资源 单击集群右上角的按钮,选择“删除集群”,对集群执行删除操作。 按需计费资源删除后,可能还会存在账单信息,因为系统通常会在使
完成备份或者迁移,退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。 单击“退订使用中的资源”页签。 单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。
源和组件的状态检测,帮助发现节点故障。 强烈建议您安装该插件,如已安装请查看插件版本并升级到1.16.0及以上版本。 安装NPD插件后,当节点出现异常时,控制台上可以查看到指标异常。 您还可以在节点事件中查看到NPD上报的事件,根据事件信息可以定位故障。 表1 故障事件说明 故障事件
仅支持使用Docker容器引擎: Docker in Docker(通常在CI场景)。 节点上使用Docker命令。 调用Docker API。 节点操作系统 由于业务容器运行时共享节点的内核及底层调用,为保证兼容性,建议节点的操作系统选择与最终业务容器镜像相同或接近的Linux发行版本。
Web终端(web-terminal)是一款非常轻巧的终端服务器,支持在Web界面上使用Kubectl命令。它支持通过标准的Web浏览器和HTTP协议提供远程CLI,提供灵活的接口便于集成到独立系统中,可直接作为一个服务连接,通过cmdb获取信息并登录服务器。 web-terminal可以在Node.js支持的所有操
若该插件为helm v2时创建,cce会在查看插件列表及插件详情等操作中自动将configmap中的v2 release转换至secret中的v3 release,原configmap中的v2 release不会删除。可执行以下命令查看插件相关的release的configmap列表。
通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin
更多关于容器存储空间分配的内容,请参考数据盘空间分配说明。 重置节点后登录该节点,查看容器容量是否已扩容。容器存储Rootfs不同回显结果也不同,具体如下。 Overlayfs:没有单独划分thinpool,在dockersys空间下统一存储镜像相关数据。执行以下代码,查看容器容量是否扩容成功。 docker exec
如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 在页面右上角,选择“资源 > 我的配额”。 系统进入“服务配额”页面。 图1 我的配额 您可以在“服务配额”页面,查看各项资源的总配额、及使用情况。 如果当前配额
工作负载迁移成功后,在工作负载详情页的“实例列表”页签,可查看到工作负载已迁移到1中所创建的节点上。 删除原有节点。 工作负载迁移成功且运行正常后,即可删除原有节点。 原有节点不在默认节点池 复制节点池并添加节点。具体请参见复制节点池。 单击节点池名称操作列的“节点列表”,在节点列表中可查看到新建节点的IP地址。 迁移工作负载。
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP