检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
项目下,纳管后节点的企业项目保持不变。 批量纳管仅支持添加相同数据盘配置的云服务器。 集群开启IPv6后,只支持纳管所在的子网开启了IPv6功能的节点;集群未开启IPv6,只支持纳管所在的子网未开启IPv6功能的节点。 CCE Turbo集群要求节点支持Sub-ENI或可以绑定至
创建使用自定义指标的HPA策略 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。通过自定义指标配置工作负载HPA策略,可以根据业务自身特点,通过更多指标实现更灵活的弹性配置。
访问容器网段10.0.0.0/16。具体访问时要关注安全组配置,打通端口配置。 访问其他云服务 与CCE进行内网通信的与服务常见服务有:RDS、DCS、Kafka、RabbitMQ、ModelArts等。 访问其他云服务除了上面所说的VPC内访问和跨VPC访问的网络配置外,还需要
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
ReplicaSet都一直存在,Deployment回滚做的就是使用之前的ReplicaSet再次把Pod创建出来。Deployment中保存ReplicaSet的数量可以使用revisionHistoryLimit参数限制,默认值为10。 父主题: 配置工作负载
问”或“公网访问”,然后下载对应的配置文件。 图2 下载配置文件 kubectl配置文件(kubeconfig)用于对接认证集群,请您妥善保存该认证凭据,防止文件泄露后,集群有被攻击的风险。 IAM用户下载的配置文件所拥有的Kubernetes权限与CCE控制台上IAM用户所拥有的权限一致。
每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgent最多采集1000个容器标准输出日志文件,容器标准输出日志只支持json-file类型。 每个节点上,所有日志策略采集的日志文件总数不能超过4096个。 - 父主题: 日志中心
load ImageNet labels labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #if not os.path.exists(labels_file): # !../data/ilsvrc12/get_ilsvrc_aux
启用/停用:自定义某个检查项的开启或关闭。 目标节点配置:检查项默认运行在全部节点,用户可根据特殊场景需要自定义修改故障阈值。例如竞价实例中断回收检查只运行在竞价实例节点。 触发阈值配置:默认阈值匹配常见故障场景,用户可根据特殊场景需要自定义修改故障阈值。例如调整“连接跟踪表耗尽”触发阈值由90%调整至80%。
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
对象存储卷概述 为满足数据持久化的需求,CCE支持将对象存储服务(OBS)创建的存储卷挂载到容器的某一路径下,对象存储适用于云工作负载、数据分析、内容分析和热点对象等场景。 图1 CCE挂载对象存储卷 约束限制 安全容器不支持使用对象存储卷。 OBS限制单用户创建100个桶,但是
集群维度统计、命名空间维度统计对应部门配置中关联的集群、命名空间的成本统计,不包含部门中的公共成本。如下示例中,部门中只配置了命名空间的划分方式,只呈现命名空间成本统计。 图4 查看命名空间分析 父主题: 成本洞察
Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区(AZ,Availability Zone) 一个可
InvalidDiskCapacity 请检查节点的磁盘容量设置和实际可用空间,确保磁盘容量设置正确且满足应用程序或服务的需求。清理不必要的文件以释放磁盘空间。如果是动态卷,确保存储后端配置正确且可用。根据需要扩展磁盘容量或调整应用程序或服务的存储需求。 BackOffPullImage 请检查镜像URL是否正确。 FailedPullImage
参数类型 描述 auto_install_npu_driver 否 Bool 默认值:false true:自动在节点上安装NPU驱动,当前只支持310、310P卡的部分规格 check_frequency_failed_threshold 否 Int 插件判断NPU设备状态不健康的阈值次数
网络策略(NetworkPolicy)的实现和容器隧道网络有差异,详见配置网络策略(NetworkPolicy)限制Pod访问的对象: ipBlock选择器只支持选择集群外的IP地址段,不支持选择集群内的Pod或Node的IP地址。 对ipBlock选择器中的except关键字支持不佳,不建议使用except关键字。
使用Spark on CCE 使用Spark的Kubernetes调度程序spark-submit,可以将Spark应用程序提交到Kubernetes集群中运行,详情请参见在Kubernetes上运行Spark。使用spark-submit提交Spark应用程序的工作原理如下:
cn-north-4.myhuaweicloud.com/v3/auth/tokens 图1 URI示意图 为查看方便,在每个具体API的URI部分,只给出resource-path部分,并将请求方法写在一起。这是因为URI-scheme都是HTTPS,而Endpoint在同一个区域也相同,所以简洁起见将这两部分省略。
容器运行时停止该容器之前等待的宽限时长,如果不设置则为30秒,最小值为 1。在Pod被终止之前,容器可以在这个宽限时间中完成优雅关闭,例如保存状态、完成当前处理的任务、关闭网络连接等操作。因此,正确设置terminationGracePeriodSeconds对于确保应用程序能够优雅地关闭非常重要。
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全