检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
ext4 镜像快照的磁盘文件系统类型。当前只支持ext4。 ttlDaysAfterCreated integer 否 10 镜像快照保留时间,过期将会被清理。默认值为0,即永不过期。 说明: 快照过期后,仍会占用配额,需定期审核过期镜像快照后删除。 父主题: 镜像快照
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
定位思路 当工作负载状态异常时,建议先查看事件。 在CCI控制台中,单击左侧导航栏的“工作负载”,单击异常工作负载名称,进入详情页面,在Pod列表中,单击异常实例左边的,显示该实例的详情,单击事件页签。 图1 查看事件 父主题: 工作负载异常
名称,并授予被委托方(账号B)云容器实例所有权限“CCI FullAccess”,拥有该权限的用户可以执行云容器实例所有资源的创建、删除、查询、更新操作。 为委托账号授权命名空间权限(委托方操作) 进入委托方(账号A)的CCI控制台,在权限管理页面为被委托方(账号B)授予命名空间
上做到按需使用、按需付费。 详细信息请参见Job。 定时任务(CronJob) 定时任务是基于时间控制的短时任务(Job),类似于Linux系统的crontab文件中的一行,在指定的时间周期运行指定的短时任务。 详细信息请参见CronJob。 服务(Service) Pod是有生
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
"system-node-critical" and "system-cluster-critical" are two special keywords which indicate the highest priorities with the former being the highest
在页面单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图2 查看失败的容器的名称 查看退出容器的错误日志。
不支持指定系统、设备、cgroup、tmpfs、localdir等挂载目录的日志采集,会直接忽略。 容器中长度超过190的日志文件无法被采集。容器中长度在180~190范围的日志文件仅支持采集第一个文件。 当容器被停止时,如果出现因网络延迟、资源占用多等原因导致的采集延时,可能会丢失容器停止前的部分日志。 基础配置
小时(状态变为SchedulingDisabled),期间无法调度至CCI。 解决方案:用户可通过CCE集群控制台,使用kubectl工具查看bursting节点状态,如果节点被锁定,可手动解锁bursting节点。 问题二:弹性CCI功能不可用 问题原因:用户CCE集群所在子网与10
is pretty printed. 请求消息 请求参数: 请求参数的详细描述请参见表165。 请求示例: 更改PyTorchJob的结束存活时间ttlSecondsAfterFinished: { "apiVersion": "kubeflow.org/v1", "kind":
Pod状态 单击“事件”页,查看异常事件,如下图: 图2 事件类型异常 在Pod列表,单击失败实例后的“查看日志”,跳转到应用运维管理AOM界面。 图3 Pod列表 在应用运维管理AOM界面,单击“日志 > 日志搜索”选择组件,查看错误信息。 图4 查看日志 问题原因: 上传的AK/SK失效。
些资源且需停止计费,请删除相应资源。 通过账单查找云服务资源并停止计费 为了确保所有计费资源都能够被找到并删除,您可以在费用账单中获取计费资源的ID,通过这些ID信息找到具体的资源,然后将其一一删除。具体操作如下: 使用资源名称查找资源 进入“费用中心 > 流水和明细账单”页面。
使用Nvidia-smi工具 为了支持查看GPU使用情况的场景,需要在镜像中注入nvidia-smi工具,根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。 该二进制文件可以在nvidia官网,根据CUDA Toolkit版
服务资源的权限,单击“同意授权”。 授信成功后,将会创建一个委托,委托名称为“cci_admin_trust”,您可以在IAM服务控制台中查看。 (可选)上传镜像 云平台提供了容器镜像服务,您可以上传容器镜像到容器镜像仓库中,创建负载时使用该镜像,具体使用方法请参见客户端上传镜像。
容器工作负载类 为什么业务运行性能不达预期? 如何设置实例(Pod)数? 如何查看资源配额? 如何设置应用的探针? 弹性伸缩策略如何配置? 使用sample镜像创建工作负载无法运行 调用接口删除Deployment后怎么还能查看到Pod? 为什么exec进入容器后执行GPU相关的操作报错? 使