检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询PyTorchJob 功能介绍 查询PyTorchJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs/{name} 表1 Path参数 参数 是否必选 描述 name Yes name
监控安全风险 通过AOM查看Pod监控数据 为使用户更好的掌握工作负载的运行状态,CCI配合AOM对其进行全方位的监控。 通过AOM界面您可监控CCI的基础资源和运行在CCI上的应用,同时在AOM界面还可查看相关的日志和告警。 更多内容,请参见监控管理。 Pod资源监控指标 CC
Ingress:管理外部访问的资源对象。 使用存储 介绍负载中如何使用存储,即如何容器中如何使用存储卷。包括如何使用云硬盘(EVS)、弹性文件服务(SFS)、对象存储(OBS)。 使用ConfigMap和Secret 介绍如何使用ConfigMap和Secret。 ConfigMap
行扣费。在“费用中心 > 账单管理 > 流水和明细账单 > 流水账单”中,“消费时间”即按需产品的实际使用时间。 查看指定资源的账单 使用资源名称查询账单 登录管理控制台,选择“容器 > 云容器实例 CCI”。 进入云容器实例总览页面。 在左侧导航栏选择“工作负载 > Pod”,在实例列表中单击指定的实例名称。
统。 密钥名称:密钥是一种用于存储应用所需要认证信息、密钥的敏感信息等的资源类型,内容由用户决定。资源创建完成后,可在容器应用中加载使用。如何创建密钥请参见创建密钥。 密钥ID:默认生成。 使用云硬盘 在创建负载的过程中,在添加容器后,展开“高级设置 > 存储”,选择“云硬盘存储卷”,单击“添加云硬盘存储卷”。
CCI当前暂不支持对接第三方镜像仓库。 开源镜像中心:展示了镜像中心的公共镜像。 共享镜像:展示了容器镜像服务中他人共享的镜像。 镜像选择完成后,需要选择镜像的版本、设置容器名称、设置容器占用的CPU和内存规格,并选择是否开启采集标准输出文件(开启后,应用运维管理AOM将根据实际使用量进行计费)。 每
镜像仓库类 公有镜像是否可以导出? 如何制作容器镜像? 如何上传镜像? CCI是否提供基础容器镜像的下载服务? CCI Administrator有上传镜像包的权限吗? CCI 上传镜像包需要开通什么权限? CCI上传镜像时提示需要认证怎么办?
该错误出现的原因:镜像构建时使用的docker版本过低(<v1.10),部分镜像打包标准社区已经不再支持。 解决方案:请使用新版本 docker 运行时(>= docker v1.11)重新构建镜像后上传到SWR(容器镜像服务),升级负载镜像版本,重新拉取即可。 父主题: 工作负载异常
管理镜像快照 查看镜像快照 创建镜像快照后,您可以查询镜像快照信息。 查询用户创建的所有镜像快照,执行如下命令。 kubectl get imagesnapshot -oyaml 查询单个镜像快照,执行如下命令。 kubectl get imagesnapshot my-imagesnapshot
查询导入的PVC 功能介绍 查询指定命名空间下的PVC。 URI GET /api/v1/namespaces/{namespace}/extended-persistentvolumeclaims 表1 Path参数 参数 是否必选 参数类型 描述 namespace Yes String
使用前必读 概述 调用说明 终端节点 约束与限制 基本概念 API版本选择建议
CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明 选择版本 插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。
CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明 选择版本 插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。 规格配置 用于配置插件负载的实例数及资源配额。 选择“系统预置规格”时,您可选择“单实例”或“高可用”规格。
Pod日志采集 本章节将介绍在Pod内进行日志采集,允许用户通过配置容器内自定义路径下的日志文件来采集日志,并通过自定义策略处理,上报到用户kafka日志中心。 资源限制 建议您为Fluent Bit预留50MB的内存。 约束与限制 当前不支持容器中软链路径的日志采集。 当前不支持容器标准输出采集上报到kafka。
负载创建 概述 使用Docker run运行容器 使用控制台创建负载 调用API创建负载 Dockerfile参数在云容器实例中如何使用
在页面单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图2 查看失败的容器的名称 查看退出容器的错误日志。
存储管理类 CCI支持的云存储有哪些,哪种存储需要设置备份? 如何使用云存储? 如果不挂载云存储的话,容器运行产生的数据存储在哪里? job的pod已经执行完成的情况下,为什么依然有实例在挂卷等事件,并且事件信息是失败的? 使用OBS存储挂载失败
息请参见CUDA Compatibility。 表3 NVIDIA GPU驱动与CUDA配套关系 NVIDIA GPU驱动版本 CUDA Toolkit版本 460.106 CUDA 11.2.2 Update 2 及以下 418.126 CUDA 10.1 (10.1.105)及以下
Pod状态 单击“事件”页,查看异常事件,如下图: 图2 事件类型异常 在Pod列表,单击失败实例后的“查看日志”,跳转到应用运维管理AOM界面。 图3 Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。
查询指定namespace下的所有PyTorchJob 功能介绍 查询Namespace下所有PyTorchJob的详细信息。 URI GET /apis/kubeflow.org/v1/namespaces/{namespace}/pytorchjobs 表1 Path参数 参数