检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题 2.0.5 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.28集群 支持存活探针检查机制
contain a resource that already exists kube-prometheus-stack插件实例调度失败如何解决? 上传模板失败如何解决? 如何根据集群规格调整插件配额? NGINX Ingress控制器插件处于Unknown状态时卸载残留 NGINX In
Pod的编排与调度 无状态负载(Deployment) 有状态负载(StatefulSet) 普通任务(Job)和定时任务(CronJob) 守护进程集(DaemonSet) 亲和与反亲和调度
相关操作 普通任务创建完成后,您还可执行表2中操作。 表2 其他操作 操作 操作说明 编辑YAML 单击任务名称后的“更多 > 编辑YAML”,可编辑当前任务对应的YAML文件。 删除普通任务 选择待删除的任务,单击操作列的“更多 > 删除”。 单击“是”。 任务删除后将无法恢复,请谨慎操作。
19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
cpu,设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
CCE集群访问华为云图像识别服务时,默认使用华为云域名解析服务器。 CCE集群访问IDC上部署的内容审核服务时,需要使用IDC内部域名服务器。 这就需要在CCE集群上既能使用华为云域名解析服务器,也能够使用IDC内部域名服务器。如果将CCE节点上域名解析服务器指向IDC的域名解析服务器,那会导致无法解析
tag hpa-example:latest swr.cn-east-3.myhuaweicloud.com/cloud-develop/hpa-example:latest 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] 示例:
创建无状态负载(Deployment) 创建有状态负载(StatefulSet) 创建守护进程集(DaemonSet) 创建普通任务(Job) 创建定时任务(CronJob) 父主题: 工作负载
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务后,系统将开始记录CCE资
监控中心 监控中心概述 开通监控中心 管理监控采集任务 集群监控 节点监控 工作负载监控 Pod监控 事件监控 仪表盘 父主题: 云原生观测
Volcano调度 Volcano调度概述 使用Volcano调度工作负载 资源利用率优化调度 业务优先级保障调度 AI任务性能增强调度 NUMA亲和性调度 应用扩缩容优先级策略 父主题: 调度
如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点? CCE集群节点中安装kubelet的端口主要有哪些? 如何配置Pod使用GPU节点的加速能力? 容器使用SCSI类型云硬盘偶现IO卡住如何解决?
创建集群 获取指定的集群 获取指定项目下的集群 更新指定的集群 删除集群 集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区 获取分区详情
ng-Node标签被激活。 创建默认租户OBS桶:创建名称为cce-cost-{region}-{domain_id}的默认OBS桶,该OBS桶用来存储从费用中心导出的账单数据。 订阅账单数据:订阅账单后,费用中心会定期将账单推送到OBS桶中,供成本洞察使用。 图2 开通集群 (
version”。 该问题是由于cce-agent不是最新版本且自动更新未能成功导致,通常由OBS地址失效或组件版本过低引起。 解决方式: 登录异常节点执行以下命令,获取有效的OBS地址,如图中addr地址为正确的OBS地址。 cat /home/paas/upgrade/agentConfig
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
在CCE集群中部署使用Kubeflow Kubeflow部署 Tensorflow训练 使用Kubeflow和Volcano实现典型AI训练任务 父主题: 批量计算
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core
其他 定时任务停止一段时间后,为何无法重新启动? 创建有状态负载时,实例间发现服务是指什么? CCE容器拉取私有镜像时报错“Auth is empty” CCE集群中工作负载镜像的拉取策略有哪些? 鲲鹏集群Docker容器挂载点被卸载 下载镜像缺少层如何解决? 容器内的文件权限和用户都是问号