检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会同时存在于AOM中。 随着历史数据的老化,集群内的Prometheus将会与AOM中数据完全相同(例如:您的Prometheus存储时长设置为7天,7天以后AOM中的数据将会和集群内的Prometheus数据完全相同)。 编辑云原生监控插件,切换为无本地存储的轻量化模式,您可以
io/eip-bandwidth-id 使用共享型带宽时必选 空 已有的带宽ID。 不填写该字段时,则默认使用独占带宽的EIP。独占带宽EIP的参数设置请参见表1。 填写该字段时,只允许同时指定yangtse.io/eip-network-type字段,且该字段为可选。 - 删除固定EIP
移、纳管失败问题(例如当创建节点时NodeExtendParam字段中DockerLVMConfigOverride.diskType参数设置为evs,C7机型的节点会创建失败)。 解决方案 本文对节点创建中storage字段进行详细的解释说明,方便用户通过创建节点API实现较为复杂的磁盘选择与功能划分。
cation?hl=zh-cn。 创建一个普通job,镜像输入第三方镜像tensorflow/tensorflow:1.15.5-gpu,设置对应的容器规格。 启动命令添加 pip install matplotlib;python /home/basicClass.py 。 挂载刚刚创建的OBS存储盘:
nt的组件,用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于集群节点,ICAgent会自动安装,您不用手动安装ICAgent。详情请参见安装ICAgent(华为云主机)。 父主题: 监控中心
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
后,能够获取宿主机上所有GPU设备的访问权限。 关于漏洞的详细信息,请参见CVE-2021-1056。 如果您的CCE集群中存在GPU(ECS)节点,并使用了CCE推荐的NVIDIA GPU驱动版本(Tesla 396.37),按照目前NVIDIA官方公告判断暂不受影响;如果您自行安装或更新过节点上的NVIDIA
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create -f
面这样定义,使用preferredDuringSchedulingIgnoredDuringExecution规则,给cn-east-3a设置权重(weight)为80,而gpu=true权重为20,这样Pod就优先部署在cn-east-3a的节点上。 apiVersion: apps/v1
服务发起请求,获取凭据secret_1最新版本的值,并将其刷新至引用了该SPC对象的Pod内。此处插件周期性发起请求的时间间隔由安装插件时设置的rotation_poll_interval参数确定。 实时感知SPC变化 在使用Volume挂载凭据、定时轮转的演示中,其实已经使用到
eventLog.dir=obs://{bucket-name}/{log-dir}/ EOF spark.eventLog.enabled:设置为true,表示开启Spark事件日志记录。 spark.eventLog.dir:OBS桶名称及路径,格式为obs://{bucket-
20 8G 40 16G 60 32G 80 64G及以上 110 节点网卡数量说明(仅CCE Turbo集群) CCE Turbo集群ECS节点使用弹性辅助网卡,裸金属节点使用弹性网卡,节点可以创建最大Pod数量与节点可使用网卡数量相关。 图3 节点网卡数 容器网络与主机网络的Pod
模块提供了基本的监控功能,通过在nginx.conf的配置可以提供一个对外访问Nginx监控数据的接口。 登录一台可连接公网的Linux虚拟机,且要求可执行Docker命令。 创建一个nginx.conf文件,如下所示,在http下添加server配置即可让nginx提供对外访问的监控数据的接口。
监控中心FAQ 索引 为什么监控中心没有数据了? 如何关闭监控中心? 监控中心为什么没有展示自定义指标? 为什么云原生监控插件开启本地数据存储时,重启prometheus-server实例可能会导致节点列表的资源信息短时间(1-2分钟)无法正常显示? 为什么云原生监控插件开启本地
17 v1.19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
CCE最佳实践汇总 本文汇总了云容器引擎(CCE)服务的常见应用场景,并为每个场景提供详细的方案描述和操作指南,以帮助您在CCE集群中轻松搭建业务。 CCE最佳实践 开发者社区精选最佳实践 Solution as Code一键式部署类最佳实践 表1 CCE最佳实践 分类 相关文档
网络管理最佳实践 本文主要为您介绍网络管理相关实践。 场景分类 相关最佳实践 集群网络配置相关实践 集群网络地址段规划实践 集群网络模型选择及各模型区别 CCE Turbo配置容器网卡动态预热 在VPC网络集群中访问集群外地址时使用Pod IP作为客户端源IP 网络环境打通相关实践
None 服务介绍 云容器引擎 CCE 三分钟带你了解云容器引擎CCE 03:03 三分钟了解云容器引擎CCE 云容器引擎 CCE 探索云容器的编排与调度技术 03:19 探索云容器的编排与调度技术 特性讲解 CCE Autopilot集群 介绍CCE Autopilot集群 10:36
orage大小保持一致。 volumeName PV的名称。 图1 弹性文件存储-共享路径 文件存储所在VPC必须与工作负载规划部署的ECS虚拟机的VPC保持一致。 创建PV。 kubectl create -f pv-sfs-example.yaml 创建PVC。 kubectl