检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群休眠 集群唤醒 获取集群证书 吊销用户的集群证书 变更集群规格 获取任务信息 绑定、解绑集群公网apiserver地址 获取集群访问的地址 查询集群日志配置信息 配置集群日志 获取分区列表 创建分区 获取分区详情 更新分区 父主题: API
打开华为云官网,单击页面右上角的“注册”。 根据提示信息完成注册,详细操作请参见如何注册华为云管理控制台的用户?。 注册成功后,系统会自动跳转至您的个人信息界面。 参考实名认证完成个人或企业账号实名认证。 为账户充值 您需要确保账户有足够金额,关于云容器引擎价格请参见价格说明。 创建IAM用户
集群删除失败:安全组中存在残留资源 CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。 故障现象 删除集群失败,报错信息如下:
表示作业是否可抢占。开启后,认为该作业可以被抢占。 取值范围: true:开启抢占。(默认为开启状态) false:关闭抢占。 可通过查询Pod详情查看Pod是否由Volcano调度,以及被分配的队列: kubectl describe pod <pod_name> 回显如下: Spec:
登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要变更规格的集群,查看集群的更多操作,并选择“规格变更”。 图1 变更规格 在弹出的页面中,根据实际需求选择新的“集群规模”。 单击“下一步”进行规格确认,并单击“确定”。 您可以在控制台右上角单击“操作记录”查看集群变更记录。状态从“执行中”变为“成功”,表示集群规格变更成功。
Taskmanager”,查看该任务的Endpoint,根据Endpoint可以进一步得知该任务对应的TaskManager Pod。 图5 查看Endpoint 查找Endpoint对应的TaskManager Pod。在命令行界面输入以下命令,查看Flink相关Pod对应的IP地址。
txt,并写入“test\n”。 echo -e "test\n" > /tmp/test01.txt 利用以下命令查看test01.txt内容,从而验证Pod能否写入和读取自己创建的新对象。此外,账号A也可以在OBS桶中查看新对象。 cat /tmp/test01.txt 回显内容如下,说明Pod对自己创建的对象具有读写权限。
Namespace:资源分组 为什么需要Namespace Label虽然好,但只用Label的话,那Label会非常多,有时候会有重叠,而且每次查询之类的动作都带一堆Label非常不方便。Kubernetes提供了Namespace来做资源组织和划分,使用多Namespace可以将包含
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
队列的最大大小,参数值过小时极易不足。 查看参数: sysctl net.core.somaxconn net.core.somaxconn=32768 max_user_instances /etc/sysctl.conf 每个用户允许的最大 inotify 实例数,参数值过小时容器场景下极易不足。 查看参数:
污点(Taints)”。 填写需要操作污点的“键”和“值”,选择污点的效果,单击“确定”。 图1 添加污点 污点添加成功后,再次进入该界面,在节点数据下可查看到已经添加的污点。 通过kubectl命令管理污点 节点污点是与“效果”相关联的键值对。以下是可用的效果: NoSchedule:不能容忍此污点的
命令行终端显示如下类似信息: deployment.apps/mysql created 在工作负载运行的节点上查询创建的docker容器。 docker ps -a|grep mysql init容器运行后会直接退出,查询到的是exited(0)的退出状态。 父主题: 容器
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
杂的部署运维,专注核心业务,快速实现从0到1快速上线。 优势 CCE通过集成Volcano,在高性能计算、大数据、AI等领域有如下优势: 多种类型作业混合部署:支持AI、大数据、HPC作业类型混合部署。 多队列场景调度优化:支持分队列调度,提供队列优先级、多级队列等复杂任务调度能力。
时,DNS查询时只会返回Service的ClusterIP地址,具体访问到哪个Pod是由集群转发规则(IPVS或iptables)决定的。而Headless Service并不会分配单独的ClusterIP,在进行DNS查询时会返回所有Pod的DNS记录,这样就可查询到每个Pod
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.
工作负载异常:Pod一直处于Terminating状态 问题描述 查询某个命名空间下的工作负载时,偶现部分Pod(实例)一直处于Terminating 状态。 例如,查询aos命名空间下的Pod: #kubectl get pod -n aos NAME
Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules
建议将配置项与data中的键一一对应,避免将多项配置结构整体作为data中的一项来维护,配置更新过程中可能产生误覆盖等问题 密钥信息在落盘存储时会加密,但用户查询密钥时系统会解密后返回。因此,不能依赖密钥的加密机制保证用户态的信息安全,敏感信息需要用户额外加密后再配置到data字段, 否则可能导致敏感信息泄露等安全问题
本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录: 在新版事件列表查看审计事件 在旧版事件列表查看审计事件 使用限制 单账号跟踪的事件可以通过云审计控制台查询。多账号的事件只能在账号自己的事件列表页面去查看,或者到组织追踪器配置的OBS桶中查看,也可以到组织追踪器配置的CTS/system日志流下面去查看。