检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
各种工具和技术来实现对应用程序和基础设施的监控告警、日志、故障排除等功能的一套完整的解决方案。本文介绍云容器引擎CCE可观测性架构分层和主要的可观测能力,以帮助您对CCE云原生可观测性生态有一个全面的认识。 图1 可观测性体系 从架构分层的角度,CCE可观测性分为四个层次。自下而
缘小站)的能力。启用分布式支持后,一个集群可以统一管理数据中心和边缘的计算资源,用户可以便捷地根据应用的诉求将其部署在对应的区域。 CCE Turbo集群使用分布式云资源功能需要提前注册并部署智能边缘小站服务。 图1 CCE Turbo分布式管理 核心概念 为了区分云上资源和分布
SNAT规则中添加的自定义网段,对于虚拟私有云的配置,必须是虚拟私有云子网网段的子集,不能相等。 SNAT规则中添加的自定义网段,对于云专线的配置,必须是云专线侧网段,且不能与虚拟私有云侧的网段冲突。 当执行云服务器底层资源操作(如变更规格)时,会导致已配置的NAT规则失效,需要删除后重新配置。
d设置的拓扑策略预测匹配的节点列表。Pod的拓扑策略配置请参考NUMA亲和性调度使用示例。调度过程如下: 根据Pod设置的Volcano拓扑策略,筛选具有相同策略的节点。Volcano提供的拓扑策略与拓扑管理器相同。 在设置了相同策略的节点中,筛选CPU拓扑满足该策略要求的节点进行调度。
创建GPU类型节点,具体请参见创建节点。 集群中需要安装GPU插件,且安装时注意要选择节点上GPU型号对应的驱动,具体请参见CCE AI套件(NVIDIA GPU)。 在v1.27及以下的集群中使用默认GPU调度能力时,GPU插件会把驱动的目录挂载到/usr/local/nvidia/lib64,在容器中
登录异常节点执行以下命令,获取有效的OBS地址,如图中addr地址为正确的OBS地址。 cat /home/paas/upgrade/agentConfig | python -m json.tool 登录检查失败的异常节点,参考上一步重新获取OBS地址,检查是否一致。若不一致,请将异常节点的OBS地址修改为正确地址。
3中存在堆缓冲区溢出漏洞,该漏洞存在于Fluent Bit的嵌入式http服务器对跟踪请求的解析中,由于在解析/api/v1/traces 端点的传入请求时,在解析之前未正确验证input_name的数据类型,可通过在请求的“inputs”数组中传递非字符串值(如整数值),可能导致
接下来为用户组“read_only”赋予集群的只读权限。 图4 为用户组赋予集群的只读权限 然后返回CCE控制台,为这五个用户所在的用户组“read_only”增加命名空间的只读权限,单击左侧栏目树中的“权限管理”,为用户组“read_only”逐个赋予所有集群的只读权限。 图5 为用户组赋予命名空间的只读权限
像仓库的密码。 DOCKER_EMAIL:第三方镜像仓库的邮箱。 创建工作负载时使用第三方镜像,具体步骤请参见如下。 kubernetes.io/dockerconfigjson类型的密钥作为私有镜像获取的认证方式,以Pod为例,创建的myregistrykey作为镜像的认证方式。
b调度到新节点上。 根据上述结果,在启用优先级抢占调度时,建议您开启节点弹性,以保证集群资源的按需供给,进而保证应用SLA。 基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低
升级后的节点池,不仅完美融合了按需和包年/包月节点的灵活性,更在原有的全量能力基础上进一步增强配置管理,为您的资源管理带来更高效、更灵活的体验。 为什么要切换新版节点池? 灵活的资源配置:节点池提供更加灵活的节点类型,允许您根据即时需求创建按需节点,也可以选择成本效益更高的包年/包月节点。
可用区:选择一个可用区,云硬盘只能挂载到同一可用区的节点上,创建后不支持更换可用区,请谨慎选择。 云硬盘类型:请根据需求自定义选择合适的云硬盘类型。 容量(GiB):请根据需求填写容量,默认为10GiB。 单击“创建”,然后填写存储挂载到容器的路径, MySQL默认使用的路径为“/var/lib/mysql”。
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个
Autopilot集群均支持 工作负载是在Kubernetes上运行的应用程序。无论您的工作负载是单个组件还是协同工作的多个组件,您都可以在Kubernetes上的一组Pod中运行它。在Kubernetes中,工作负载是对一组Pod的抽象模型,用于描述业务的运行载体,包括Deployment、Sta
第一位小数:预绑定低水位,弹性网卡预绑定的最低比例(最小预绑定弹性网卡数 = ⌊节点的总弹性网卡数 * 预绑定低水位⌋) 第二位小数:预绑定高水位,弹性网卡预绑定的最高比例(最大预绑定弹性网卡数 = ⌊节点的总弹性网卡数 * 预绑定高水位⌋) BMS节点上绑定的弹性网卡数:Pod正在使用的弹性网卡数 + 最小预绑定弹性网卡数
VPC)或本地网络来构建中心辐射型组网,实现同区域的VPC互通,是云上大规格、高带宽、高性能的集中路由器。借助企业路由器的能力,可以实现不同VPC下CCE集群互通。 通过ER连接对端VPC,可以解决不同VPC下的集群创建容器之后短期内无法和对端VPC虚拟机互通的问题。在CCE Turbo集群中,
查询首先被发送到coredns中的DNS缓存层。 从缓存层,检查请求的后缀,并根据下面的情况转发到对应的DNS上: 具有集群后缀的名字(例如“.cluster.local”):请求被发送到coredns。 具有存根域后缀的名字(例如“.acme.local”):请求被发送到配置的自定义DNS解析器(例如:监听在
HPA是针对Pod级别的,但是如果集群的资源不够了,那就只能对节点进行扩容了。集群节点的弹性伸缩本来是一件非常麻烦的事情,但是好在现在的集群大多都是构建在云上,云上可以直接调用接口添加删除节点,这就使得集群节点弹性伸缩变得非常方便。 Cluster Autoscaler是Kubernetes提供的集群节点弹
插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。 对于GPU驱动版本与您业务应用的兼容性(GPU驱动版本与CUDA库版本的兼容性),CCE不做保证,请您自行验证。 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱