检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
优势 使用容器化的方式做此类人工智能训练与推理有如下优势: 容器化消除环境差异,不需要自己安装各种软件和配套版本,如python,tensorflow,cuda toolkit等软件。 GPU驱动免安装。 低成本,按秒计费。 serverless带来的免VM运维。
MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache.org/。
应用场景 大数据、AI计算 当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。
PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。
问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。
TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。
GPU负载 使用Tensorflow训练神经网络 使用Nvidia-smi工具
backing this claim.
最佳实践 Dockerfile参数在云容器实例中如何使用 使用Tensorflow训练神经网络 使用多种方法创建工作负载 05 进阶 云容器实例提供了定制的kubectl工具,支持使用Kubectl命令行创建负载等资源。
父主题: Extended PersistentVolumeClaim
(key: value,冒号后面必须有一个空格或换行),合法的表示方法如下: animal: pets plant: tree 也可以将多个键值对写成一个行内对象: hash: {name: Steve, foo: bar} 下面这种情况会出错 foo: somebody said
删除PersistentVolumeClaim 功能介绍 删除PersistentVolumeClaim。 调用方法 请参见如何调用API。
使用PersistentVolumeClaim申请持久化存储 云容器实例当前支持在容器中使用如下三种持久化存储。
父主题: Extended PersistentVolumeClaim
父主题: Extended PersistentVolumeClaim
Extended PersistentVolumeClaim 导入存储 查询导入的PVC 解绑存储 父主题: Kubernetes API(废弃)
查询PersistentVolumeClaim 功能介绍 查询PersistentVolumeClaim。 调用方法 请参见如何调用API。
PersistentVolumeClaim 查询指定namespace下的PersistentVolumeClaims 创建PersistentVolumeClaim 删除PersistentVolumeClaim 查询PersistentVolumeClaim 替换PersistentVolumeClaims
创建PersistentVolumeClaim 功能介绍 创建PersistentVolumeClaim,主要适用于动态创建存储的场景,即存储资源未创建时,创建PVC会根据请求内容创建一个存储资源。
查询指定namespace下的PersistentVolumeClaims 功能介绍 查询Namespace下的所有PersistentVolumeClaim。 调用方法 请参见如何调用API。