检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对用户组进行IAM授权侧重于对云平台资源的访问管理,通过策略控制每个用户组对具体资源的权限。 IAM更关注云资源的细粒度控制。 RBAC授权 对用户组进行RBAC授权是基于角色的,将权限与角色关联,再将角色分配给用户组,通常用于应用内部的访问控制。 RBAC更注重角色和任务的匹配。 本示例主要
需要新创建的场景。 在有状态负载中动态挂载云硬盘存储:仅有状态工作负载支持,可以为每一个Pod关联一个独有的PVC及PV,当Pod被重新调度后,仍然能够根据该PVC名称挂载原有的数据。适用于多实例的有状态工作负载。 计费说明 挂载云硬盘类型的存储卷时,通过StorageClas
IAM项目(Project) 企业项目 (Enterprise Project) 获取任务信息 GET /api/v3/projects/{project_id}/jobs/{job_id} cce:job:get √ √ 列出所有任务 GET /api/v2/projects/{project_id}/jobs
单击所创建集群的名称,并在左侧选择“节点管理”,切换至“节点池”页签,将光标移动到节点池名称上,查看对应的节点池ID。 图3 获取nodepool_id 任务ID(job_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。此处以集群管理为例,获取正在创建中的集群job_id。 图4 创建集群
天然互通。如果出现访问不通的情况,需要检查并确认被访问服务的安全组配置是否允许来自容器网段的访问。 与CCE进行通信的云服务有:ECS、ELB、RDS、DCS、Kafka、RabbitMQ、ModelArts、DDS等。进行通信时,除了关注相关的网络配置外,还需要关注所访问的云服
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100
Pod时无法再添加新的Pod,即一个节点上只能运行一个CoreDNS Pod。如果您配置的CoreDNS副本数量大于集群节点数量,会导致多出的Pod无法调度。建议Pod的副本数量不大于节点的数量。 合理分配CoreDNS所在位置 CoreDNS插件默认配置了podAntiAffinity(Po
默认值:false true:插件支持GPU卡原生模式和XGPU虚拟化模式。 component_schedulername 是 String 插件使用的调度器的名字 默认值:default-scheduler disable_mount_path_v1 否 Bool 默认值:false tru
s进行乘法、加法、连接、取分数位等操作。 易于管理:Prometheus server是一个单独的二进制文件,可直接在本地工作,不依赖于分布式存储。 高效:平均每个采样点仅占 3.5 bytes,且一个Prometheus server可以处理数百万的metrics。 使用pul
预期输出如下: Hello CCE 使用配置项挂载到工作负载数据卷 配置项(ConfigMap)挂载是将配置项中的数据挂载到指定的容器路径。平台提供工作负载代码和配置文件的分离,“配置项挂载”用于处理工作负载配置参数。用户需要提前创建工作负载配置,操作步骤请参见创建配置项。 使用控制台方式
器软件)为例进行说明。 域名解析服务器上配置的关键是将需要解析华为云内部域名的任务转发给上一步创建的DNS Endpoint。 例如BIND中可以修改/etc/named.conf文件,将域名解析任务转发给DNS Endpoint,如下所示,添加如下两行,将转发解析转发到DNS Endpoint的地址,其中192
最大扩容实例数,取值范围为0~2147483647。 须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 minReplicas 是 最小缩容实例数,取值范围为0~2147483647。
监控与日志 AOM:应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。
选择subeni配额不为0的虚拟机规格。 400 CCE.01400033 Snapshot task already exists. 集群备份任务已经存在。 等待集群备份任务结束后重试备份操作。 400 CCE.02400001 Invalid request. 请求体不合法。 请参考返回的mes
大为10且滚动升级最大浪涌为25%,即升级过程中可能的最大Pod数为13。在该工作负载注解中,指定了Pod延时启动时间为20s,在该时间内保证Pod正常启动后,跨VPC网络可正常访问。 表1 Pod延迟启动annotation配置 注解 默认值 参数说明 取值范围 cni.yangtse
*,则可添加5443端口入方向规则的源地址为100.*.*.*。 除客户端IP外,端口还需保留对VPC网段、容器网段和托管网格控制面网段放通,以保证集群内部可访问API Server。 如果您需要使用CloudShell功能,请保留5443端口对198.19.0.0/16网段放通,否则将无法访问集群。
计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量 GPU卡-XGPU设备数量 个 每张GPU卡的GPU虚拟设备的数量 GPU卡-调度策略 数字 0为显存隔离算力共享模式 1为显存算力隔离模式 2为默认模式表示当前卡还没被用于XGPU设备分配 GPU卡-不健康的XGPU设备数量
际容量大小,等待解压完成后tar包会被删除。因此,在实际镜像拉取过程中,除去系统插件镜像占用的空间后,需要保证dockersys分区的剩余空间大于2倍的镜像实际容量。为保证容器能够正常运行,还需要在dockersys分区预留出相应的Pod容器空间,用于存放容器日志等相关文件。 因
快。 增量同步, 经过对同步过的镜像blob信息落盘,不重复同步已同步的镜像。 并发同步,能够经过配置文件调整并发数。 自动重试失败的同步任务,能够解决大部分镜像同步中的网络抖动问题。 不依赖 docker 以及其余程序。 跨云Harbor同步镜像至华为云SWR 部分客户存在多云