检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 转发规则一: 域名:www.example
CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0 Huawei Cloud EulerOS 2.0 v1.31 √ √ √ 5.10.0-182.0.0.95.r2220_156.hce2.x86_64 v1.30
在“Pod”页签界面,单击“开始诊断”,选择要进行诊断的Pod,单击“确定”开启诊断。 图1 开始诊断 诊断完成后,单击“查看详情”,查看诊断结果。 图2 诊断结束 图3 诊断结果查看 父主题: 健康中心
在同一个VPC内,由于Pod直接绑定VPC网卡,集群外部的资源可以与集群内部的容器直接进行网络通信。 同理,如果该VPC和其他VPC或数据中心网络环境连通,在网段不冲突的情况下,其他VPC或数据中心所属的资源也可以与集群内部的容器直接进行网络通信。 Pod可直接使用VPC提供的负载均衡、安全组、弹性公网IP等能力。
兼容:业务无需重新编译,无需进行CUDA库替换,对业务无感。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证Pod全部运行在目标节点上,即节点包含gpu=true标签。 工作负载节点亲和性规则通过节点标签实现。CCE集群中节点在创建
和节点亲和调度,避免其他容器调度到该节点,以免出现业务异常。 限制业务容器访问管理面的操作步骤如下: 查询容器网段和内网apiserver地址。 在CCE的“集群管理”界面查看集群的容器网段和内网apiserver地址。 设置容器网络流量访问规则。 CCE集群:以root用户登录
负载Pod一直无法创建。 解决方案: 登录该问题节点。 手动解压节点上的cce-pause镜像安装包。 tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点: docker load -i
v1.25集群:v1.25.4-r0及以上 集群类型:CCE Standard集群或CCE Turbo集群。 节点OS:Huawei Cloud EulerOS 2.0 节点类型:x86架构的弹性虚拟机。 Volcano插件版本:1.10.0及以上版本。 使用限制 使用超卖特性时
表5 污点容忍配置 node_match_expressions 否 Array of 表6 插件实例亲和性配置 表4 resources字段数据结构说明 参数 是否必选 参数类型 描述 limitsCpu 是 String CPU大小限制,单位:m。 limitsMem 是 String
StorageClass的名称,对象存储为csi-obs volumeName: testing-abc # PV的名称 创建工作负载,并在容器配置中的数据存储选项中选择存储卷声明PVC,添加上述创建的PVC,如果工作负载能够正常创建成功,则说明可以跨区域使用OBS桶。 apiVersion:
解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。 根据监控、内存增长时间点、日志、进程名等信息,排查Pod内对应进程是否存在内存泄漏。
主机视图 从主机视角出发,监控主机的资源占用与健康状态,查看主机的磁盘、文件系统等常用系统设备指标,帮助您掌控节点运行状况。 指标说明 主机视图暴露的指标具体说明如下: 图1 主机资源指标 表1 视图说明 图表名称 单位 说明 CPU使用率 百分比 每个CPU核的使用率 平均负载
does not match target host name 'test.com' 请为Ingress配置和域名相符的证书。 您可以通过以下命令查看证书的过期时间、域名等信息,其中ca.crt为证书路径。 openssl x509 -in ca.crt -subject -noout -text
修改节点系统级最大文件句柄数 登录节点,查看/etc/sysctl.conf文件。 cat /etc/sysctl.conf 修改fs.file-max参数,fs.file-max=1048576为内核参数名称及建议取值。 若查看sysctl.conf文件时,文件中已设置fs
节点池绑定的云服务器组不存在,可能由于用户手动删除了云服务器组导致。 请登录CCE控制台,在左侧导航栏中单击“节点管理”,并单击节点池名称,在“总览”页面查看展开高级配置,查看所属云服务器组。 登录ECS控制台,在左侧导航栏中单击“弹性云服务器 > 云服务器组”,确认云服务器组是否存在。 如果云服务器组已
将本账号的VPC资源共享给其他账号使用。例如,租户A可以将自己账号下创建的VPC和子网共享给租户B。在租户B接受共享以后,租户B账号下可以查看到该共享子网及其所属的共享VPC,并可以使用该共享子网和共享VPC创建资源,如CCE Turbo集群。详情请参见共享VPC概述。 使用场景
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 执行动作 动作:选择“重写URL”,当
Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core Dump需要将Core文件持久化
路径:后端应用对外提供访问的路径,此处添加的访问路径要求后端应用内存在相同的路径,否则转发无法生效。 目标服务名称:请选择已有Service或新建Service。页面列表中的查询结果已自动过滤不符合要求的Service。 目标服务访问端口:可选择目标Service的访问端口。 执行动作 动作:选择“重定向至URL”