检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Memory)事件,但无法保证处理所有的OOM事件。 VPA的性能尚未在大规模集群中实践。 VPA建议值可能大于实际可分配的资源量(例如节点可分配资源上限、资源配额上限),导致重建的Pod处于Pending状态无法调度。 为同一个负载的配置多个VPA可能会出现行为不一致的现象。 创建VPA策略 使用k
ntroller_admission_duration_seconds_bucket|apiserver_admission_webhook_admission_duration_seconds_bucket|apiserver_admission_webhook_admissi
huawei.com/ascend-310.”的Kubernetes事件。 在CCE控制台使用NPU资源,只需在创建工作负载时,勾选NPU配额,并指定使用NPU芯片的数量。 图1 使用NPU NPU节点标签 创建NPU节点后,CCE会给节点打上对应标签,如下所示。 $ kubectl
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分
Secret Secret是一种加密存储的资源对象,您可以将认证信息、证书、私钥等保存在Secret中,而不需要把这些敏感数据暴露到镜像或者Pod定义中,从而更加安全和灵活。 Secret与ConfigMap非常像,都是key-value键值对形式,使用方式也相同,不同的是Sec
ng-Node标签被激活。 创建默认租户OBS桶:创建名称为cce-cost-{region}-{domain_id}的默认OBS桶,该OBS桶用来存储从费用中心导出的账单数据。 订阅账单数据:订阅账单后,费用中心会定期将账单推送到OBS桶中,供成本洞察使用。 图2 开通集群 (
file-max=1048576 nf_conntrack_buckets nf_conntrack_max /etc/sysctl.conf 连接跟踪表容量,可视业务场景调整。 计算桶占用率= [nf_conntrack_count] / [nf_conntrack_buckets]。 当占用率持续超过0.7
权限。当配置在全部命名空间时能力与运维权限一致。 admin(运维权限):对全部命名空间下大多数资源的读写权限,对节点、存储卷,命名空间和配额管理的只读权限。 cluster-admin(管理员权限):对全部命名空间下所有资源的读写权限。 drainage-editor:节点排水操作权限,可执行节点排水。
编写开机运行脚本 应用容器化时,一般需要准备开机运行的脚本,写作脚本的方式和写一般shell脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本。
not resolve host: test.obs.cn-north-4.myhuaweicloud.com; Unknown error 在节点上ping上一步无法解析的域名,确认节点上能否解析此域名。 ping test.obs.cn-north-4.myhuaweicloud
集群命名空间RBAC授权 应用现状 CCE的权限控制分为集群权限和命名空间权限两种权限范围,其中命名空间权限是基于Kubernetes RBAC能力的授权,可以对集群和命名空间内的资源进行授权。 当前,在CCE控制台,命名空间权限默认提供cluster-admin、admin、e
AutoScaler重试扩容的周期说明 当节点池扩容因为资源售罄、配额不足、节点安装过程中错误等原因失败时,AutoScaler 能够重试同一节点池或者切换其他节点池扩容,重试扩容的周期如下: 当节点池资源售罄或者用户配额不足时,AutoScaler将按照5min、10min、20m
GET /api/v3/projects/{project_id}/jobs/{job_id} cce:job:get √ √ 列出所有任务 GET /api/v2/projects/{project_id}/jobs cce:job:list √ √ 删除所有任务或删除单个任务 DELETE
replicas 是 String 实例数,默认为:1 resources 是 resources object 容器资源(CPU、内存)配额。 表3 custom 参数 是否必选 参数类型 描述 multiAZBalance 否 Bool 多可用区部署模式是否为均分模式,开启后将使用均分模式部署
GPU/NPU Pod重建风险检查异常处理 ELB监听器访问控制配置项检查异常处理 Master节点规格检查异常处理 Master节点子网配额检查异常处理 节点运行时检查异常处理 节点池运行时检查异常处理 检查节点镜像数量异常处理 OpenKruise插件兼容性检查异常处理 Secret落盘加密特性兼容性检查异常处理
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 配置工作负载信息。 在“容器配置>基本信息”中设置xGPU配额: 显存:显存值单位为MiB,需为正整数,且为128的倍数。若配置的显存超过单张GPU卡的显存,将会出现无法调度状况。 算力:算力值单位为%,需为5的倍数,且最大不超过100。
修改CoreDNS配置直接解析 前提条件 CCE集群所在VPC与线下IDC已经使用专线或其他方式正确连接,IDC与VPC网段和CCE集群容器网段能够互访。专线的创建方法请参见云专线快速入门。 操作步骤 CoreDNS的配置都存储在名为coredns的ConfigMap下,您可以在
replicas 是 String 实例数,默认为:1 resources 是 resources object 容器资源(CPU、内存)配额。 表4 custom 参数 是否必选 参数类型 描述 auto_install_npu_driver 否 Bool 默认值:false
部署多个Nginx Ingress Controller时,每个Controller需要对接一个ELB,并保证对接的ELB需要拥有至少两个监听器配额,且端口80和443没有被监听器占用。如果使用独享型ELB,需要支持网络型规格。 使用社区提供的nginx-ingress模板与镜像时,使