检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
优势 使用容器化的方式做此类人工智能训练与推理有如下优势: 容器化消除环境差异,不需要自己安装各种软件和配套版本,如python,tensorflow,cuda toolkit等软件。 GPU驱动免安装。 低成本,按秒计费。 serverless带来的免VM运维。
TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。
PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。
MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。
应用场景 大数据、AI计算 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。
问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
创建PersistentVolumeClaim 功能介绍 创建PersistentVolumeClaim,主要适用于动态创建存储的场景,即存储资源未创建时,创建PVC会根据请求内容创建一个存储资源。
删除PersistentVolumeClaim 功能介绍 删除PersistentVolumeClaim。 调用方法 请参见如何调用API。
查询PersistentVolumeClaim 功能介绍 查询PersistentVolumeClaim。 调用方法 请参见如何调用API。
最佳实践 Dockerfile参数在云容器实例中如何使用 使用Tensorflow训练神经网络 使用多种方法创建工作负载 05 进阶 云容器实例提供了定制的kubectl工具,支持使用Kubectl命令行创建负载等资源。
backing this claim.
PersistentVolumeClaim 查询指定namespace下的PersistentVolumeClaims 创建PersistentVolumeClaim 删除PersistentVolumeClaim 查询PersistentVolumeClaim 替换PersistentVolumeClaims
查询指定namespace下的PersistentVolumeClaims 功能介绍 查询Namespace下的所有PersistentVolumeClaim。 调用方法 请参见如何调用API。
Extended PersistentVolumeClaim 导入存储 查询导入的PVC 解绑存储 父主题: Kubernetes API(废弃)
使用PersistentVolumeClaim申请持久化存储 云容器实例当前支持在容器中使用如下三种持久化存储。
父主题: Extended PersistentVolumeClaim
父主题: Extended PersistentVolumeClaim
父主题: Extended PersistentVolumeClaim
(key: value,冒号后面必须有一个空格或换行),合法的表示方法如下: animal: pets plant: tree 也可以将多个键值对写成一个行内对象: hash: {name: Steve, foo: bar} 下面这种情况会出错 foo: somebody said