检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
进入AOM管理页面,在实例列表中选择所上报的AOM实例。 进入“指标管理”,查看DCGM指标。 步骤四:使用Grafana查看DCGM指标信息 在左侧导航栏中选择“插件中心”,安装Grafana,并开启“数据源对接AOM”,选择AOM实例。 进入AOM管理页面,在实例列表中选择所上报的AOM实例。
22:00:00(北京时间)对CCE Autopilot数据面CPU、内存资源账单进行调整,调整后CCE Autopilot数据面资源账单的产品类型将从云容器引擎CCE调整为云容器实例CCI,此次调整资源单价保持不变,已出历史账单不变,不会对您的业务使用造成影响,具体调整如下: 表1
据HTTP请求方法、HTTP请求头、查询字符串、网段、Cookie等请求参数匹配不同的监听器(每个监听器对应一个ELB访问端口),便于灵活地分流业务,合理分配资源。 图1 高级转发规则示意图 前提条件 已创建一个CCE Standard或CCE Turbo集群,且集群版本满足以下要求:
查看指定资源的账单 下面以CCE集群为例,介绍如何查看指定资源的账单。 登录CCE控制台,单击集群名称进入集群。 在集群总览页,复制集群ID。 图1 获取资源ID 进入“流水和明细账单”页面。 选择“明细账单”,在筛选条件中选择“资源ID”,并输入步骤2复制的资源ID,单击图标即可搜索该资源的账单。
使用控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“存储”,在右侧选择“快照与备份”页签。 找到需要创建PVC的快照,单击“创建存储卷声明 PVC”,并在弹出窗口中设置PVC参数。 PVC名称:请输入PVC名称。 资源标签:通过为资源添加标签,可以对资源进行自定义标
Pod视图 从Pod视角呈现Pod维度集群资源、网络、磁盘等监控情况,帮助您详细了解Pod的运行状态。 指标说明 Pod视图暴露的指标包括Pod资源指标、Pod网络指标和Pod磁盘指标,具体说明如下: 图1 Pod资源指标 表1 Pod资源指标说明 指标名称 单位 说明 容器数 个
检查节点上默认挂载目录及软链接是否被手动挂载或修改。 47 节点paas用户登录权限检查异常处理 检查paas用户是否有登录权限。 48 ELB IPv4私网地址检查异常处理 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 49 检查历史升级记录是否满足升级条件 检查集群的历史升级
原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyte
格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “小规格”为单实例部署,适用50节点以下集群规模;“大规格”为高可用部署,适用50节点以上集群规模。 选择“自定义规格”时,您可根据需求调整插件实例数和资源配额。实例数为1时插件不具备高可用能力,当插件实例所在节点异常
HPA HPA获取Pod资源指标失败 FailedGetPodsMetric 重要 获取Pod资源指标失败(单个Pod的资源利用率)。 HPA HPA获取集群资源指标失败 FailedGetResourceMetric 重要 获取集群资源指标失败(整个集群的资源利用率)。 HPA HPA获取容器资源指标失败
合使用Gang调度策略。容器组下的容器高度相关也可能存在资源争抢,整体调度分配,能够有效解决死锁。 在集群资源不足的场景下,gang的调度策略对于集群资源的利用率的提升是非常明显的。 虚拟GPU资源调度 支持GPU虚拟化资源调度。 参数名 取值范围 默认值 是否允许修改 作用范围
池kubelet组件配置参数或者重启节点kubelet后,该污点会被临时删除,可能会导致由于节点资源压力而触发驱逐的节点重新加入调度器计算流程中,Pod重新调度到该节点上,如果节点资源压力未缓解,之后节点会再次进入驱逐流程。 问题根因 当前kubelet上报Memory/Disk/PID
该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。 父主题: 权限
问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在GPU服务容器中发现一些新增的文件core
tes资源的指标无关。 扩缩容决策算法 HPA controller根据当前指标和期望指标来计算缩放比例,计算公式如下: 期望实例数 = 向上取整[当前实例数 * ( 当前的指标值 / 目标值 )] 例如当前的指标值是200m,目标值是100m,那么按照公式计算期望的实例数就会翻
占用的调度容量,从而实现调度层的伸缩。 节点弹性伸缩:即资源层弹性,主要是集群的容量规划不能满足集群调度容量时,会通过弹出ECS或CCI等资源的方式进行调度容量的补充。CCE容器实例弹性到CCI服务的方法请参见CCE容器实例弹性伸缩到CCI服务。 两个维度的弹性组件与能力可以分开
创建服务时需要根据实际访问需求选择合适的访问方式,目前支持以下几种:集群内访问(ClusterIP)、节点访问(NodePort)、负载均衡 ( LoadBalancer )、DNAT网关 ( DNAT )。 部署 选择不当的访问方式,可能造成服务内外部访问逻辑混乱和资源浪费。 网络管理
t、Service等)的增删改查权限进行配置。 解决方案 Kubernetes提供一套RBAC授权机制,可以非常方便地实现命名空间内容资源的权限控制。 Role:角色,其实是定义一组对Kubernetes资源(命名空间级别)的访问规则。 RoleBinding:角色绑定,定义了用户和角色的关系。
与服务Pod同节点 无法访问 无法访问 无法访问 无法访问 与服务Pod不同节点 无法访问 无法访问 无法访问 无法访问 与服务Pod同节点的其他容器 无法访问 无法访问 无法访问 无法访问 与服务Pod不同节点的其他容器 无法访问 无法访问 无法访问 无法访问 NGINX Ingr
基于priority策略的资源碎片重调度场景化配套策略,即在同优先级场景下,优先选择扩容后可使节点可分配资源的CPU/内存比,更接近于所有已调度Pods的申请的CPU/内存比。 此策略基于集群中全局Pods/Nodes全局资源而非仅扩容节点部分,主要配套重调度等相关能力降低集群整体资源碎片率,无相关配套独立使用场景不建议使用。