检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果您需要对您所拥有的云容器引擎(CCE)进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用CCE服务的其它功能。 默认情况下,新建的IAM用户没有任何权
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
检查集群是否可以正常创建节点。 检查步骤 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“节点管理”,并切换至“节点”页签,单击“创建节点”。节点配置详情请参见创建节点。 图1 创建节点 解决方案 若集群升级后您的集群无法创建节点,请联系技术支持人员。 父主题: 升级后验证
退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。 单击“退订使用中的资源”页签。 单个资源退订与批量退订可使用不同的操作方式: 退订单个资源:单击待退订资源所在行的“退订资源”。
1048576 files 创建节点/节点池时自动配置最大文件句柄数 您可以设置节点或节点池安装后执行脚本,在新建节点或节点池时通过脚本配置最大文件句柄数。 首先您需要确认创建节点或节点池的操作系统,例如CentOS 7.6。 在同集群
apps/v1beta2下所有资源不再提供服务,使用apps/v1替代。 extensions/v1beta1下daemonsets,deployments,replicasets不再提供服务,使用apps/v1替代。 extensions/v1beta1下networkpolicies不再提供服务,使用networking
okup命令查看Pod对应的域名,可以发现能解析出Pod的IP地址。这里可以看到DNS服务器的地址是10.247.3.10,这是在创建CCE集群时默认安装CoreDNS插件,用于提供DNS服务,后续在Kubernetes网络会详细介绍CoreDNS的作用。 $ kubectl run
MasterEIPRequest(); MasterEIPRequestSpecSpec specSpec = new MasterEIPRequestSpecSpec(); specSpec.withId("a757a69e-f920-455a-b1ba-d7a22db0fd50");
镜像的一个特征是镜像可以只使用一个地址,但背后有两个镜像,这样在描述工作负载时,可以使用同一个镜像地址,且不用配置亲和性,工作负载描述文件更简洁更容易维护。 亲和性配置说明 CCE在创建节点时,会自动给节点打上kubenetes.io/arch的标签,表示节点架构,如下所示。 kubernetes
存储管理最佳实践 本文主要为您介绍存储管理相关实践。 场景分类 相关最佳实践 存储扩容实践 存储扩容 存储配置实践 挂载第三方租户的对象存储 通过StorageClass动态创建SFS Turbo子目录 自定义StorageClass 使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度
Kubeflow部署成功后,使用ps-worker的模式来进行Tensorflow训练就变得非常容易。本节介绍一个Kubeflow官方的Tensorflow训练范例,您可参考TensorFlow Training (TFJob)获取更详细的信息。 创建MNIST示例 部署TFJob资源以开始训练。
容器设置 在什么场景下设置工作负载生命周期中的“停止前处理”? 在什么场景下,容器会被重建? 在同一个命名空间内访问指定容器的FQDN是什么? 健康检查探针(Liveness、Readiness)偶现检查失败? 如何设置容器umask值? CCE启动实例失败时的重试机制是怎样的?
zlh-test servicePort: 80 表1 关键参数说明 参数 参数类型 描述 host String 域名配置。 若不配置,会自动匹配path。 path String 匹配路径。 ingress.beta.kubernetes.io/url-match-mode
创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd 节点安全实践 CCE节点安全配置建议 父主题:
制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点池日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd CCE节点安全配置建议 节点池弹性伸缩实践
导入存储池 创建节点时导入 在创建节点时,在存储配置中可以为节点添加数据盘,选择“作为临时存储卷”导入存储池,详情请参见创建节点。 图1 导入临时卷 手动导入 如果创建节点时没有导入临时存储卷,或当前存储卷容量不够,可以进行手动导入。 前往ECS控制台为节点添加SCSI类型的磁盘。操作步骤详情请参见新增磁盘。
自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等等。 更多关于自动续费的规则介绍请参见自动续费规则说明。 前提条件 请确认包年/包月资源还未到期。 在购买页面开通自动续费 您可以在购买集群或节点页面开通自动续费,如图1所示。 图1 自动续费配置 在购买集群或节点时开通的自动续费遵循以下规则:
在节点池详情中切换至“弹性伸缩”页签,可以看到弹性伸缩策略的配置及伸缩记录。 图1 查看弹性伸缩策略 您还可以在“策略”页面中查看已创建的弹性伸缩策略: 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中单击“策略”,切换至“节点伸缩策略”页签。 您可以查看弹性伸缩策略的配置。单击要策略后方的“更多 >
Pod 同时在新增节点上安装驱动,可能导致安装的驱动和预期不符或安装失败。因此,不建议在huawei-npu驱动选择功能已开启的情况下,对已设置“安装后执行脚本”NPU驱动安装命令的节点池进行扩容,或在创建新节点池时设置“安装后执行脚本”用于安装NPU驱动。 安装插件 登录CCE控制
云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动,尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化,我们将及时跟进帮助您升级修复。 如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动,请参考上图确认您安装的GPU驱动是否受该漏洞影响。