检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么业务运行性能不达预期? 如何设置实例(Pod)数? 如何查看资源配额? 如何设置应用的探针? 弹性伸缩策略如何配置? 使用sample镜像创建工作负载无法运行 调用接口删除Deployment后怎么还能查看到Pod? 为什么exec进入容器后执行GPU相关的操作报错? 使用CCI集群,在容器内部执行s
}, "spec": { "backoffLimit": 6, "tfReplicaSpecs": { "Ps": { "replicas": 1,
"cleanPodPolicy": "Running", "jobMode": "MXTrain", "mxReplicaSpecs": { "Scheduler": { "replicas": 1,
"c6e548f1-adfe-11e9-ba3a-b44326d0c915" }, "spec": { "pytorchReplicaSpecs": { "Master": { "replicas": 1,
来控制其调度到CCI服务。通过合理的调度策略配置,提升用户集群的资源利用率。 支持4种调度策略。 支持2种管理调度策略的方式。 支持多个虚拟节点调度。 调度负载到CCI 资源配额 用户通过配置pod的cpu、memory等字段约束容器使用资源规格和上限。插件对资源规格进行规整,尽可能为用户降低成本。
如果需要实时读取数据,可为已创建的文件系统指定挂载参数。 挂载参数可设置mount命令指定文件系统挂载的选项,当前支持noac,即用于禁止本地的文件和目录缓存,支持客户端实时从远端SFS 3.0读取数据。 此处设置的挂载参数仅对当前命名空间下创建的文件存储卷有效。 图2 设置SFS
基础的tensorflow库,它分支持GPU和支持CPU两个版本,在镜像中心即可下载。 GPU版本地址为 tensorflow/tensorflow:1.15.0-gpu CPU版本地址为 tensorflow/tensorflow:1.13.0 本文采用tensorflow官网
可创建不同的命名空间,不同命名空间中的数据彼此隔离,使得它们既可以共享同一个集群的服务,也能够互不干扰。命名空间的一个重要的作用是充当一个虚拟的集群,用于多种工作用途,满足多用户的使用需求。 本章节将沿用创建用户并授权使用CCI中创建的IAM用户“James”和用户组“开发人员组
"f4c79668-adfd-11e9-8041-340a9837e2a7" }, "spec": { "pytorchReplicaSpecs": { "Master": { "replicas": 1,
}, "spec": { "backoffLimit": 6, "tfReplicaSpecs": { "Ps": { "replicas": 1,
"cleanPodPolicy": "Running", "jobMode": "MXTrain", "mxReplicaSpecs": { "Scheduler": { "replicas": 1,
"c6e548f1-adfe-11e9-ba3a-b44326d0c915" }, "spec": { "pytorchReplicaSpecs": { "Master": { "replicas": 1,
果需要实时读取数据,可为已创建的文件系统指定挂载参数。 挂载参数可设置mount命令指定文件系统挂载的选项,当前仅支持noac,即用于禁止本地的文件和目录缓存,支持客户端实时从远端SFS读取数据。 此处设置的挂载参数仅对当前命名空间下创建的文件存储卷有效。 图1 设置SFS挂载参数
}, "spec": { "backoffLimit": 6, "tfReplicaSpecs": { "Ps": { "replicas": 1,
"cleanPodPolicy": "Running", "jobMode": "MXTrain", "mxReplicaSpecs": { "Scheduler": { "replicas": 1,
}, "spec": { "backoffLimit": 6, "tfReplicaSpecs": { "Ps": { "replicas": 1,
"cleanPodPolicy": "Running", "jobMode": "MXTrain", "mxReplicaSpecs": { "Scheduler": { "replicas": 1,
prometheus.io/path,默认为/metrics prometheus.io/port , 端口 基础指标监控是CCI为了让Prometheus能获取Kubernetes集群的pod基础监控数据,利用Pod服务自动发现机制,在Prometheus主配置文件(prometheus.yml
}, "spec": { "pytorchReplicaSpecs": { "Master": { "replicas":
是否跳过对CCI/IAM服务端的校验,默认为true。 cache CREDENTIAL_CACHE 是否开启将IAM Token缓存到本地,提高访问性能,默认为true。 注意: 在非安全环境,建议关闭此选项。 generate-kubeconfig 为用户直接生成kubec