检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表2 资源访问需求 团队 权限范围 权限内容 研发与测试 集群A的NameSpaceA 访问和操作NameSpaceA,以便进行软件开发和测试活动。 运维 集群A的NameSpaceB 访问NameSpaceB,以便进行软件开发和测试活动。 具体解决方案如下: 为不同团队创建不同用户组。
00时间为准),结算完毕后进入新的计费周期。计费的起点以集群/节点创建成功的时间点为准,终点以实例删除时间为准。 集群/节点从下发创建命令到正常运行存在时间差,计费的起点是集群/节点创建成功的时间点,而非开始创建时间。您可以在CCE控制台中的“操作记录”中查看这两个时间。 例如
亲和性和反亲和性考虑,在批量调度Pod时,考虑未调度Pod之间的亲和性和反亲和性影响,并通过优先级施加到Pod的调度进程中。 应用场景5:在线离线作业混合部署 当前很多业务有波峰和波谷,部署服务时,为了保证服务的性能和稳定性,通常会按照波峰时需要的资源申请,但是波峰的时间可能很短
更快速的启动时间 传统的虚拟机技术启动应用服务往往需要数分钟,而Docker容器应用,由于直接运行于宿主内核,无需启动完整的操作系统,因此可以做到秒级、甚至毫秒级的启动时间,大大节约了开发、测试、部署的时间。 一致的运行环境 开发过程中一个常见的问题是环境一致性问题。由于开发环境、测
华为云容器服务CCE Autopilot数据面账单变更公告 发布时间:2024/09/14 华为云计划于2024/09/18 22:00:00(北京时间)对CCE Autopilot数据面CPU、内存资源账单进行调整,调整后CCE Autopilot数据面资源账单的产品类型将从云
到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源,这种死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。
APIServer视图暴露的指标包括请求指标、工作队列指标和资源指标,具体说明如下: 图1 请求指标 表1 请求指标说明 指标名称 单位 说明 存活数 个 组件存活实例数 QPS 请求数/秒 每秒不同响应码的请求个数 请求成功率(读) 百分比 每秒读请求中响应码为20x的请求比例 处理中请求数 个数 APIServer在处理中的请求个数
1.21版本集群停止维护公告 发布时间:2024/01/22 华为云CCE集群1.21版本即将于2024/04/30 00:00(北京时间)正式停止维护,届时针对CCE集群1.21以及之前的版本,华为云将不再支持新集群创建。若您账号下存在1.21及之前的集群版本,为了保证您的服务权益,建议尽快升级到最新的商用版本。
在Master、集群、节点、工作负载和外部依赖五个方面的占比(异常数据使用红色突出显示)。欲了解更多诊断结果,请前往健康中心页面查看。 图1 集群健康度 健康概况 资源健康概况 资源健康概况涵盖了节点、工作负载和Pod三类资源中异常资源所占比例,以及命名空间的总数,以便及时发现和解决业务异常。
1.25版本集群停止维护公告 发布时间:2024/12/31 华为云CCE集群1.25版本即将于2025/03/31 00:00(北京时间)正式停止维护,届时针对CCE集群1.25以及之前的版本,华为云将不再支持新集群创建。若您账号下存在1.25及之前的集群版本,为了保证您的服务权益,建议尽快升级到最新的商用版本。
1.19版本集群停止维护公告 发布时间:2023/07/07 华为云CCE集群1.19版本即将于2023/09/30 00:00(北京时间)正式停止维护,届时针对CCE集群1.19以及之前的版本,华为云将不再支持新集群创建。若您账号下存在1.19及之前的集群版本,为了保证您的服务权益,建议尽快升级到最新的商用版本。
1.23版本集群停止维护公告 发布时间:2024/04/25 华为云CCE集群1.23版本即将于2024/09/30 00:00(北京时间)正式停止维护,届时针对CCE集群1.23以及之前的版本,华为云将不再支持新集群创建。若您账号下存在1.23及之前的集群版本,为了保证您的服务权益,建议尽快升级到最新的商用版本。
如果Ingress转发策略配置了域名和路径,最多支持配置8个Values值。 如果Ingress转发策略仅配置了路径,最多支持配置9个Values值。 按Cookie发布:当请求的Cookie键值对匹配时,访问灰度发布服务。 按比例发布:按访问灰度发布服务的请求比例。 按HTTP请求头 键:a
影响健康检查结果。 健康检查初始等待时间 开始健康检查的初始等待时间(秒) 参数名 取值范围 默认值 是否允许修改 作用范围 delay 1-50 5 允许 CCE Standard/CCE Turbo 健康检查的超时时间 健康检查的超时时间(秒) 参数名 取值范围 默认值 是否允许修改
计费样例 计费场景 某用户购买了一个按需计费的集群用于业务上云测试,集群中使用资源及配置如下: 表1 初始集群资源及配置 资源类型 计费开始时间 初始计费模式 初始规格配置 数量 集群 2023/03/18 15:30:00 按需计费 区域:上海一 集群规模:50节点 高可用:是
容冷却时间之间的影响和关系请参见冷却时间说明。 配置修改完成后,单击“确认配置”。 冷却时间说明 节点池中配置的两个冷却时间之间的影响和关系如下: 弹性扩容中的冷却时间 弹性缩容冷却时间:当前节点池扩容出的节点多长时间不能被缩容,作用范围为节点池级别。 弹性缩容中的冷却时间 扩容
逐个修改文件权限,而导致挂载时间过长。 问题定位: Securitycontext字段中是否包含runAsuser/fsGroup。securityContext是kubernetes中的字段,即安全上下文,它用于定义Pod或Container的权限和访问控制设置。 启动命令中是
使用HPA+CA实现工作负载和节点联动弹性伸缩 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx Ingress对多个应用进行弹性伸缩 应用发布相关 使用Service实现简单的灰度发布和蓝绿发布 使用Nginx Ingress实现灰度发布和蓝绿发布 使用ASM实现灰度发布和蓝绿发布
负载均衡器配置:监听器配置 客户端连接空闲超时时间 客户端连接空闲超时时间,在超过keepalive_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation:
DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。