检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
此处 --train_dir 表示训练结果存储路径,其前缀 /tmp/sfs0 需要与4.c中设置的NFS“容器内挂载路径”路径保持一致,否则训练结果无法写入NFS中。 --max_steps表示训练迭代的次数,这里指定了10000次迭代,完成模型训练大概耗时3分钟,如果不指定,默认
容器:镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的类和实例一样,镜像是静态的定义,容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。 工作负载:工作负载是在 Kubernetes 上运行的应用程序。一个工作负载由一个或多个实例(Pod)组成,一个实例由一个或多个容器组成,每个容器都对应一个容器镜像。
使用CCI部署静态Web应用 本节通过在云容器实例上部署一个名称为2048的静态Web游戏应用为例,帮助您学习如何使用云容器实例。 您将按以下流程学习如何使用云容器实例。 操作流程 操作步骤 说明 准备工作 您需要注册华为账号,并为账户充值。 步骤一:构建镜像并上传至SWR镜像仓库
CCI资源包中的核时怎么理解? 1 核*时 = 1 * 3600(核*秒) 1 核*时 :1核的CPU连续跑1个小时所用的资源量 1 核*秒: 1核的CPU连续跑1秒所用的资源量 案例一: 假设用户的Deployment是2.5核的,连续运行了2个小时,那么它所消耗的资源量为:2
sorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。Tensorflow开源框架的信息详见:https://www.tensorflow.org 。 URI POST /apis/kubeflow
调用接口删除Deployment后怎么还能查看到Pod? Deployment接口提供级联删除Pod的选项propagationPolicy,可以设置propagationPolicy的值为Orphan、Foreground和Background,具体请参见删除Deployment。
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。 问题原因:
CCI提供了多种创建工作负载的方法,来满足您的业务所需。 最佳实践 Dockerfile参数在云容器实例中如何使用 使用Tensorflow训练神经网络 使用多种方法创建工作负载 05 进阶 云容器实例提供了定制的kubectl工具,支持使用Kubectl命令行创建负载等资源。 二次开发
CCI上传镜像时提示需要认证怎么办? 当前在CCI中上传镜像使用的是“SWR容器镜像服务”。 使用SWR上传镜像,您需要先获取访问权限,请参见下图。如果需了解上传镜像详细步骤,请参见客户端上传镜像。 图1 上传镜像 父主题: 镜像仓库类
PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。 URI POST /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs 表1
MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。 URI POST /apis/kubeflow
应用场景 大数据、AI计算 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。 云容器实例提供如下特性,能够很好的支持这类场景。
1 (10.1.105)及以下 GPU镜像 CUDA和cuDNN都是与GPU相关的技术,用于加速各种计算任务,特别是深度学习任务。在使用NVIDIA GPU进行深度学习时,通常需要安装CUDA和cuDNN。请使用配套关系的基础镜像。 Pod存储空间限制 如果没有挂载EVS等磁盘,应
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 Network是云容器实例扩展的一种Kubernetes资源对象,用于关联VPC及子网,从而使得容器实例能够使用公有云的网络资源。
通用计算型:支持创建含CPU资源的容器实例及工作负载,适用于通用计算场景。 GPU型:支持创建含GPU资源的容器实例及工作负载,适用于深度学习、科学计算、视频处理等场景。 Network是云容器实例扩展的一种Kubernetes资源对象,用于关联VPC及子网,从而使得容器实例能够使用公有云的网络资源。
Intel oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议切换oneAPI版本或使用4核以上Pod运行。 父主题: 容器工作负载类
基于Kubernetes的负载模型提供负载快速部署、弹性负载均衡、弹性扩缩容、蓝绿发布等重要能力。 云容器实例学习路径 您可以借助云容器实例成长地图,快速了解产品,由浅入深学习使用和运维CCI。
此类型的集群上。 通用计算型:支持创建含CPU资源的容器实例,适用于通用计算场景。 GPU加速型:支持创建含GPU资源的容器实例,适用于深度学习、科学计算、视频处理等场景。 目前,“华南-广州”、“华东-上海二”、“西南-贵阳一”区域暂不支持“GPU加速型”资源。 一个账号在一个区域,目前只能使用5个命名空间。
CCI是否提供基础容器镜像的下载服务? CCI Administrator有上传镜像包的权限吗? CCI 上传镜像包需要开通什么权限? CCI上传镜像时提示需要认证怎么办?