检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
文件存储(SFS) 文件存储概述 通过静态存储卷使用已有文件存储 通过动态存储卷使用文件存储 通过动态存储卷创建SFS子目录 设置文件存储挂载参数 将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 父主题: 存储
极速文件存储(SFS Turbo) 极速文件存储概述 通过静态存储卷使用已有极速文件存储 设置极速文件存储挂载参数 通过动态存储卷创建SFS Turbo子目录(推荐) 通过StorageClass动态创建SFS Turbo子目录 父主题: 存储
到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。 通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。 步骤一:指定节点池驱动版本 登录节点查看节点上实际的驱动,驱动版本为510
操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击集群名称,查看总览页面。 在“网络信息”中单击“节点默认安全组”后的“编辑”按钮。 图1 节点默认安全组 选择一个已有的安全组,并确认安全组规则满足集群要求后,单击“确定”。 请确认选择的安全组设置了正确的端口规则,否则
为校验需要(不能为空和0),设置的大小不起作用,此处设定为固定值1Gi。 执行如下命令创建PVC。 kubectl create -f pvc-obs-auto-example.yaml 命令执行完成后会在集群所在VPC内创建一个对象存储桶,您可以在“存储管理 > 对象存储卷”中
远程登录原集群中任意一个节点,使用docker pull命令拉取所有镜像到本地。 登录SWR控制台,单击页面右上角的“登录指令”并复制。 在节点上执行上一步复制的登录指令。 登录成功会显示“Login Succeeded”。 为所有本地镜像打上标签。 docker tag [镜像名称1:版本名称1]
调度,然后根据Pod调度到节点的AZ信息再创建PV,在Pod所在节点同一个AZ创建云硬盘,这样确保云硬盘能够挂载,从而确保Pod调度成功。 节点多AZ情况下使用csi-disk导致Pod调度失败 创建一个3节点的集群,3个节点在不同AZ下。 使用csi-disk创建一个有状态应用,观察该应用的创建情况。
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“中国-香港”、“亚太-曼谷”或“亚太-新加坡”区域。 在非洲地区有
集群,支持运行Docker容器。借助云容器引擎,您可以在云上轻松部署、管理和扩展容器化应用程序。 您可以使用本文档提供API对云容器引擎进行相关操作,如创建、删除、变更规格、添加网卡等。支持的全部操作请参见2 API概览。 在调用云容器引擎API之前,请确保已经充分了解云容器引擎相关概念,详细信息请参见产品介绍。
场景二 pod的内存的limit设置较小,实际使用率超过limit,导致容器触发了OOMkill。 解决方法: 扩大工作负载内存的limit设置。 示例 本例将创建一个Pod尝试分配超过其限制的内存,如下这个Pod的配置文档,它申请50M的内存, 内存限制设置为100M。 memory-request-limit-2
定时轮转能力:当Pod正常运行后,若其在SPC中声明的、存储在云凭据管理服务中的凭据发生了更新,通过定时轮转,可以将最新的凭据值刷新至Pod内。使用该能力时,需要将凭据的版本指定为”latest”。 实时感知SPC变化能力:当Pod正常运行后,若用户修改了在SPC中声明的凭据信息(如新增
解决方法 给该用户授权Kubernetes权限,具体方法如下。 登录CCE控制台,在左侧导航栏中选择“权限管理”。 在右边下拉列表中选择要添加权限的集群。 在右上角单击“添加权限”,进入添加权限页面。 在添加权限页面,确认集群名称,选择该集群下要授权使用的命名空间,例如选择“全部命名
IP,返回指标结果则为正常。 在集群中安装3.9.5及以上版本的云原生监控插件,且部署模式需选择“本地数据存储”。 采集GPU指标 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“配置项与密钥”。 切换至“monitoring”命名空间,在“配置项”页签找到user-a
果镜像具有恶意的属性,在容器内的进程可能会访问主机上任意文件和目录的只读副本,从而造成宿主机上敏感信息泄露。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2022-23648 中 2022-02-28 漏洞影响 用户在使用了恶意构造的镜像时
如果您用于接受数据的目的端为自建的Prometheus,则获取Token的方式如下: 若您自建的Prometheus同样部署在K8s集群中,可进入Prometheus容器中查看。若您自建的Prometheus部署在虚拟机上,则可跳过本步骤。 kubectl exec -ti -n monitoring prometheus-server-0
手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格进行伸缩。当选择的节点规格资源不足或配额不足时,会导致扩容失败。 设置优先级 关于如何设置节点池规格优先级详情请参见配置集群弹性伸缩策略。 父主题: 节点弹性伸缩
需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 操作步骤 如果您需要使用指定的NVIDIA驱动版本,可以在节点安装新版本GPU驱动,操作步骤如下: 对节点下线,并将节点上的负载进行手动驱逐,结束所有程序对GPU卡的使用。 节点下线 kubectl cordon <NODE_NAME>
务产生影响。以下列举了一些可能受到影响的场景: Kubernetes资源管理:在进行创建、删除、更新或查询 Kubernetes 资源的操作时,可能会出现失败的情况。 Kubernetes分布式选主:在基于Kubernetes Lease选主的分布式应用中,可能会因Lease续期请求超时而导致主实例重启。