检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
metrics:监控数据采集方式,当前支持通过Custom Metrics API(prometheus_adaptor聚合数据)和Prometheus 直接查询。 Volcano 1.11.17及之后的版本推荐使用Custom Metrics API的方式获取监控数据,示例如下: { "type":
资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。 自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩
登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“配置中心”,切换至“网络配置”页签。 查看“容器网络配置”,以default-network(默认容器子网)为例,复制容器子网的“IPv4网段”。 在左侧导航栏中选择“总览”,查看“网络信息”,单击“节点默认安全组”,跳转到安全组页面。 选择“入方向
插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。 选择“自定义规格”时,您可根据需求修改插件各个组件的副本数以及CPU/内存配置。 说明:
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 域名:无需填写 路径匹配规则:前缀匹配
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC ID进行过滤,得到该虚拟私有云下所有的弹性负载均衡实例。 查看负载均衡实例下的监听器详情,描述中包含集群ID、Service ID等信息,说明该监听器由此集群创建。 您可以根据上述信息将集群下残留的弹性负载均衡相关资源删除。
BS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第三方镜像bvlc/caffe:gpu,设置对应的容器规格。
问题现象 节点池的状态一直处于“扩容中”,但是“操作记录”里面没有看到有对应创建节点的记录。 原因排查: 检查如下问题并修复: 租户是否欠费。 查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案:
CCE的云原生告警能力是由AOM服务提供的,支持指标和事件的告警。同时,CCE集群详情中增加了告警中心能力,能支持快速配置资源等常用告警和告警查看。 图1 告警中心架构 告警中心 基于AOM服务的告警能力实现,提供集群内的告警快速检索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。
实例家族。 不同区域支持的节点规格(flavor)不同,且节点规格存在新增、售罄下线等情况,建议您在使用前登录CCE控制台,在创建节点界面查看您需要的节点规格是否支持。 通用计算增强型 通用计算增强型弹性云服务器是CPU独享型实例,实例间无CPU资源争抢,性能强劲稳定,搭载全新网络加速引擎,提供更高的网络性能。
在配置SNI时,用户需要添加绑定域名的证书,客户端会在发起SSL握手请求时就提交请求的域名信息,负载均衡收到SSL请求后,会根据域名去查找证书。如果找到域名对应的证书,则返回该证书;如果没有找到域名对应的证书,则返回服务器默认证书。 配置SNI后,如果您在CCE控制台删除SN
Pod,Pod启动时端口冲突无法创建。例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。 请避免在同一个节点上调度多个使用主机网络的Pod,否则在创建ClusterIP类型
存储使用场景及挂载方式不同,详情请参见存储。 负载实例数大于1时,不支持挂载云硬盘类型的存储。 安全设置(可选):对容器权限进行设置,保护系统和其他容器不受其影响。请输入用户ID,容器将以当前用户权限运行。 容器日志(可选):容器标准输出日志将默认上报至 AOM 服务,无需独立配
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
完成备份或者迁移,退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。 单击“退订使用中的资源”页签。 单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 域名:无需填写 路径匹配规则:前缀匹配
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 转发规则一: 域名:www.example
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 执行动作 动作:选择“重定向至URL”
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 域名:无需填写 路径匹配规则:前缀匹配