检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
取值范围: 不涉及 clusterVersion 是 String 参数解释: 集群版本,请填写当前集群的补丁版本,可登录控制台在总览页面进行查看 约束限制: 不涉及 取值范围: 不涉及 targetVersion 是 String 参数解释: 升级目标版本,如果填写大版本,则自动选择最新补丁版本
节点池绑定的云服务器组不存在,可能由于用户手动删除了云服务器组导致。 请登录CCE控制台,在左侧导航栏中单击“节点管理”,并单击节点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已
登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker logs $containerID 根据日志提示修复工作负载本身的问题。 查看操作系统的错误日志。 cat /var/log/messages
E所依赖的其他云服务资源进行调用,且该授权仅在当前区域生效。您可前往“IAM控制台 > 委托”页签,单击“cce_admin_trust”查看各区域的授权记录。关于资源委托详情,您可参考委托进行了解。 由于CCE对其他云服务有许多依赖,如果没有Tenant Administrat
does not match target host name 'test.com' 请为Ingress配置和域名相符的证书。 您可以通过以下命令查看证书的过期时间、域名等信息,其中ca.crt为证书路径。 openssl x509 -in ca.crt -subject -noout -text
Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core Dump需要将Core文件持久化
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩
登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“配置中心”,切换至“网络配置”页签。 查看“容器网络配置”,以default-network(默认容器子网)为例,复制容器子网的“IPv4网段”。 在左侧导航栏中选择“总览”,查看“网络信息”,单击“节点默认安全组”,跳转到安全组页面。 选择“入方向
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
PVC按照社区逻辑实现,PVC本身的定义是存储声明,与底层存储解耦,不负责感知底层存储细节,因此没有感知底层存储故障的能力。 云监控服务CES 具备查看云服务监控指标的能力:云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当用户在云平台上开通云服务后,系统会根据服务类型自
CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
在配置SNI时,用户需要添加绑定域名的证书,客户端会在发起SSL握手请求时就提交请求的域名信息,负载均衡收到SSL请求后,会根据域名去查找证书。如果找到域名对应的证书,则返回该证书;如果没有找到域名对应的证书,则返回服务器默认证书。 配置SNI后,如果您在CCE控制台删除SN
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控系统,
群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。 您已选择操作的资源(高亮显示)和其他资源有关联关系,请确认是否同时操作。
re-pod-container/memory-request-limit-2.yaml --namespace=mem-example 查看Pod的详细信息: kubectl get pod memory-demo-2 --namespace=mem-example 这时候,容
若该插件为helm v2时创建,cce会在查看插件列表及插件详情等操作中自动将configmap中的v2 release转换至secret中的v3 release,原configmap中的v2 release不会删除。可执行以下命令查看插件相关的release的configmap列表。
通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510.47.03。 # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin