检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
单击“下一步:高级设置”,进行任务高级配置。 任务可以分为一次性任务和自定义任务。 一次性任务:一次性任务每次创建一个Pod,直至一个Pod成功执行,任务完成。 自定义任务:自定义任务的执行次数和每次并行执行的数量。执行次数指任务达到执行完成状态需要成功执行的Pod数量。并行数指任务执行过程中允许
单击“下一步:定时规则”,进行任务高级配置。 并发策略 Forbid:在前一个任务未完成时,不创建新任务。 Allow:定时任务不断新建Job。 Replace:已到新任务创建时间点,但前一个任务还未完成,新的任务会取代前一个任务。 定时规则:设置任务在何时执行。 任务记录:设置保留执行成功任务的个数和保留执行失败任务的个数。
使用Job和CronJob创建任务负载 任务负载是负责批量处理短暂的一次性任务(short lived one-off tasks),即仅执行一次的任务,它保证批处理任务的一个或多个 Pod 成功结束。 短时任务(Job):是Kubernetes用来控制批处理型任务的资源对象。批处理业务
Intel oneAPI Toolkit运行VASP任务,为什么概率性运行失败? Intel oneAPI Toolkit(Intel并行计算平台)运行的VASP(用于电子结构计算和量子力学-分子动力学模拟)任务对CPU硬件版本有深度依赖,在小规格Pod场景下概率性运行失败,建议
云容器实例提供了查看CPU/内存、GPU/显存的界面,您只需要在无状态负载、任务、定时任务中Pod列表的“监控”Tab下即可查看资源使用率,如图1所示。 您也可以在Pod管理中查看所有Pod的资源使用率。 图1 查看监控信息 父主题: 工作负载
√ 伸缩负载 √ x √ 删除Pod √ x √ 查看Pod √ √ √ 创建任务 √ x √ 删除任务 √ x √ 查看任务 √ √ √ 创建定时任务 √ x √ 删除定时任务 √ x √ 查看定时任务 √ √ √ 查看资源使用率 √ √ √ 添加云硬盘卷 √ x √ 删除云硬盘卷
从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题: 附录
工作负载 Pod 无状态负载(Deployment) 任务(Job) 定时任务(CronJob) 查看资源使用率 容器启动命令 容器生命周期 健康检查 远程终端 升级负载 伸缩负载 客户端DNS配置
Job的这种用完即停止的特性特别适合一次性任务,比如持续集成,配合云容器实例按秒计费,真正意义上做到按需使用、按需付费。 详细信息请参见Job。 定时任务(CronJob) 定时任务是基于时间控制的短时任务(Job),类似于Linux系统的crontab文件中的一行,在指定的时间周期运行指定的短时任务。 详细信息请参见CronJob。
0点之前)创建的无状态负载,建议选择业务不受影响的时间窗口,删除并重新创建负载的Pod实例。 任务(Job)/定时任务(CronJob):当前任务/定时任务执行完成后,下次任务/定时任务新建的Pod不再受该漏洞影响,无需处理。 插件:coredns插件不受该漏洞影响,无需处理。 漏洞详情
创建TFJob 功能介绍 创建TFJob。 TFJob即Tensorflow任务,是基于Tensorflow开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现Tensorflow的单机或分布式训练。Tensorflow开源框架的信息详见:https://www
创建PyTorchJob 功能介绍 创建PyTorchJob。 PyTorchJob即PyTorch任务,是基于PyTorch开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现PyTorch的训练。 URI POST /apis/kubeflow
当前主流的大数据、AI训练和推理等应用(如Tensorflow、Caffe)均采用容器化方式运行,并需要大量GPU、高性能网络和存储等硬件加速能力,并且都是任务型计算,需要快速申请大量资源,计算任务完成后快速释放。 云容器实例提供如下特性,能够很好的支持这类场景。 计算加速:提供GPU/Ascend等异构芯片加速能力
创建MXJob 功能介绍 创建MXJob。 MXJob即MXNet任务,是基于MXNet开源框架的kubernetes自定义资源类型,有多种角色可以配置,能够帮助我们更简单地实现MXNet的训练。MXNet开源框架的信息详见:https://mxnet.incubator.apache
为什么exec进入容器后执行GPU相关的操作报错? 问题现象: exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。 问题原因:
容器实例被驱逐 如果节点超负荷运行,无法承受的话,系统会自动清理一些任务。 建议根据实际使用量来申请资源。 父主题: 容器工作负载类
√ 伸缩负载 √ x √ 删除Pod √ x √ 查看Pod √ √ √ 创建任务 √ x √ 删除任务 √ x √ 查看任务 √ √ √ 创建定时任务 √ x √ 删除定时任务 √ x √ 查看定时任务 √ √ √ 查看资源使用率 √ √ √ 添加云硬盘卷 √ x √ 删除云硬盘卷
云容器实例-成长地图 | 华为云 云容器实例 云容器实例(Cloud Container Instance, CCI)服务提供 Serverless Container(无服务器容器)引擎,让您无需创建和管理服务器集群即可直接运行容器。 产品介绍 图说ECS 立即使用 立即使用 成长地图
(Serverless),直接通过控制台、kubectl、Kubernetes API创建和使用容器负载,且只需为容器所使用的资源付费。 图1 使用云容器实例 产品功能 一站式容器生命周期管理 使用云容器实例,您无需创建和管理服务器集群即可直接运行容器。您可以通过控制台、kubectl、Kubernetes
这里通过--image_file指定了要分类的图片,图片如下。执行结果最后几行是分类的label和对应的打分,其中有一行显示airliner(score = 0.84250),分数越高越准确,可见模型认为这个图片是一架客机。 图6 airliner 也可以不指定要分类的图片,默认将使用下面这张图片分类。 图7 熊猫 执行命令python