检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
(Enterprise Project) 获取任务信息 GET /api/v3/projects/{project_id}/jobs/{job_id} cce:job:get √ √ 列出所有任务 GET /api/v2/projects/{project_id}/jobs cce:job:list
节点弹性伸缩 节点伸缩原理 节点池弹性伸缩优先级说明 创建节点弹性策略 管理节点弹性策略 父主题: 弹性伸缩
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
resources: requests: storage: 10Gi storageClassName: csi-sfs EOF 使用下面的YAML创建一个Deployment,用于模拟Java服务发生OOM,将产生的dump文件转储到绑定通用文件存储(SFS
盘存储卷、文件存储卷、对象存储卷和极速文件存储卷。 各类存储的区别和对比如下: 表1 各类存储的区别和对比 存储类型 持久化存储 伴随容器自动迁移 多节点挂载 本地磁盘存储 支持 不支持 不支持 云硬盘存储卷(EVS) 支持 支持 不支持 对象存储卷(OBS) 支持 支持 支持,可由多个节点或工作负载共享
网络,可以提供IP地址管理、DNS服务,子网内的弹性云服务器IP地址都属于该子网。 图1 VPC网段结构 默认情况下,同一个VPC的所有子网内的弹性云服务器均可以进行通信,不同VPC的弹性云服务器不能进行通信。 不同VPC的弹性云服务器可通过VPC创建对等连接通信。 容器网段(Pod网段)
节点创建 CCE集群新增节点时的问题与排查方法? CCE集群纳管节点时的常见问题及排查方法? 纳管节点时失败,报错“安装节点失败”如何解决? CCE支持等保三级认证吗? 父主题: 节点
调度策略 如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上?
问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。 登录节点。 在节点上新建一个脚本文件(例如/tmp/check_hang_mount
监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。 存储类服务 CCE支持为
ID 如果资源类型为OBS,本参数填入OBS名称 storageType String 云存储的类型,和volumeID搭配使用。即volumeID和storageType必须同时被配置。 bs:EVS云存储 nfs:SFS弹性文件存储 obs:OBS对象存储 efs:SFS Turbo极速文件存储
续填写其他参数,详情请参见纳管节点至节点池。 节点规格 单击添加已有云服务器,选择要纳管的服务器。 可以选择多台云服务器批量纳管,但批量纳管仅支持添加相同规格、相同可用区、相同数据盘配置的云服务器。 如果云服务器有多块数据盘,需要选择其中一块作为供容器运行时和Kubelet组件使用。
预期的问题 支持混合集群 1.2.3 v1.15 v1.17 v1.19 修复因为精度不够引发的训练任务OOM的问题 修复CCE v1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级 修复特定场景下队列状态不明的问题 修复特定场景下作业挂载PVC panic的问题
为什么Pod调度不到某个节点上? 请排查节点和docker是否正常,排查方法请参见排查项七:内部组件是否正常。 如果节点和docker正常,而pod调度不到节点上,请确认pod是否做了亲和,排查方法请参见排查项三:检查工作负载的亲和性配置。 如果节点上的资源不足,导致节点调度不上,请扩容或者新增节点。
集群概述 集群基本信息 Kubernetes版本发布记录 补丁版本发布记录 父主题: 集群
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
用户进入云审计服务创建管理类追踪器后,系统开始记录云服务资源的操作。在创建数据类追踪器后,系统开始记录用户对OBS桶中数据的操作。云审计服务管理控制台会保存最近7天的操作记录。 云审计控制台对用户的操作事件日志保留7天,过期自动删除,不支持人工删除。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录。
同理,重复以上步骤创建生产集群访问凭证。 Pipeline脚本编写 Pipeline是一套运行于Jenkins上的工作流框架,将原本独立运行于单个或者多个节点的任务连接起来,实现单个任务难以完成的复杂流程编排与可视化。其作为Jenkins2.X 最核心的特性,帮助Jenkins实现从CI到CD与DevOps的转变
Grafana插件版本发布记录 OpenKruise插件版本发布记录 Gatekeeper插件版本发布记录 容器垂直弹性引擎版本发布记录 CCE集群备份恢复插件版本发布记录(停止维护) Kubernetes Web终端版本发布记录(停止维护) Prometheus插件版本发布记录(停止维护) 父主题:
可以访问到此服务关联的负载,服务访问会因路由跳转导致一定性能损失,且无法获取到客户端源IP。 节点级别:只有通过负载所在节点的IP+访问端口才可以访问此服务关联的负载,服务访问没有因路由跳转导致的性能损失,且可以获取到客户端源IP。 端口配置: 协议:TCP。 服务端口:访问Service的端口。