检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
式,能够大幅提升容器的交付效率。 若您的自建镜像仓库为Harbor 1.10.5以上版本,则Harbor中集成了与华为云SWR的对接,只需要填写相关参数即可进行迁移,具体操作请参考跨云Harbor同步镜像至华为云SWR。否则,您可以按以下操作手动完成容器镜像的迁移。 远程登录原集群中任意一个节点,使用docker
平衡在线业务与离线业务对出口网络带宽的使用,保证在线业务有足够的网络带宽,在线业务触发阈值时,压缩离线业务带宽使用。 在线业务所占用的网络资源较少时,离线业务可使用更多带宽;在线业务所占用的网络资源较多时,降低离线业务资源占用量,从而优先保障在线业务的网络带宽。 约束与限制 使用出口网络带宽保障特性需满足以下要求:
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
命名空间总成本:按命名空间聚合工作负载的成本,包括 CPU 成本(ECS)、内存成本(ECS)、EVS 成本。资源总成本:为计算资源总成本,包括集群所有 ECS 成本,以及 EVS 成本。 资源总成本 = 命名空间总成本 + 未被分配资源成本 如果灰色区域占用过大,则表示未被使用的资源过多,有资源浪费的现象。 工作负载
Println(err) } } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 202 表示节点池伸缩已经被接受,节点池将根据伸缩后的节点池期望节点数增加或者删除节点池中的节点 错误码 请参见错误码。 父主题:
ice的自定义指标采集策略,详情请参见管理监控采集任务。 关于ServiceMonitor的创建方式请参见配置Service Monitor监控自定义指标。 PodMonitor:定义针对Pod的自定义指标采集策略,详情请参见管理监控采集任务。 关于PodMonitor的创建方式请参见配置Pod
通过PVC动态创建方式创建的云硬盘名称格式为“pvc-{uid}”,且接口中的MetaData字段包含集群ID信息,您可以通过集群ID筛选出该集群中自动创建的云硬盘,根据需要进行删除。 前往云硬盘控制台。 通过名称“pvc-{uid}”进行过滤,得到所有由CCE自动创建的云硬盘实例。 通过F12进入浏
点弹性,以保证集群资源的按需供给,进而保证应用SLA。 基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(ba
多个维度的集群成本开销和资源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊
Turbo集群在某些特定场景下(例如跨VPC、专线互联),会出现对端Pod的路由规则生效慢的情况。在这种情况下,可以利用Pod延时启动的能力进行规避。 您也可以使用企业路由器连接对端VPC来解决该问题,详情请参见集群通过企业路由器连接对端VPC。 约束与限制 仅以下指定版本的CCE Turbo集群支持配置Pod延时启动参数::
https://www.example.com 配置永久重定向的返回状态码 配置永久重定向时,您可以通过nginx.ingress.kubernetes.io/permanent-redirect-code注解修改永久重定向的返回状态码。例如将永久重定向的状态码设置为308: nginx.ingress
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
在“容器配置>基本信息”中设置xGPU配额: 显存:显存值单位为MiB,需为正整数,且为128的倍数。若配置的显存超过单张GPU卡的显存,将会出现无法调度状况。 算力:算力值单位为%,需为5的倍数,且最大不超过100。 当显存设置为单张GPU卡的容量上限或算力设置为100%时,将会使用整张GPU卡。 使用GP
在Web开发中,由于浏览器的同源策略,一个域下的网页通常不能直接请求另一个域下的资源。CORS(跨资源共享,Cross-Origin Resource Sharing)提供了一种安全的方式来绕过这个限制,允许跨域请求。 使用CORS允许跨域访问的场景较多,可能的场景如下: 前后端分离:前端应用部署在一个域名下(如
Ingress配置重定向规则 为Nginx Ingress配置URL重写规则 为Nginx Ingress配置HTTPS协议的后端服务 为Nginx Ingress配置GRPC协议的后端服务 为Nginx Ingress配置一致性哈希负载均衡 为Nginx Ingress配置应用流量镜像 为Nginx
绑定EIP的Pod,如果要被公网成功访问,需要添加放通相应请求流量的安全组规则。 单个Pod只能绑定单个EIP。 创建Pod时,可指定相关的annotation配置EIP的属性,创建完成后,更新EIP相关的annotation均无效。 与Pod关联的EIP不要通过弹性公网IP的con
PreCheckTask spec 是 PrecheckSpec object 参数解释: spec是集合类的元素类型,您对需要升级前检查的配置信息的主体部分都在spec中给出。CCE通过spec的描述来执行检查。 约束限制: 不涉及 表3 PrecheckSpec 参数 是否必选 参数类型 描述
是 String CCE集群版本 device_version 是 String 插件的版本 driver_version 是 String 插件开启自动安装驱动时,插件里负责安装驱动的Pod的镜像tag,一般与device_version相同 swr_addr 是 String