检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则
名空间中。 当Secret 被更新时,Kubernetes会同时更新数据卷中的数据。 但对于以subPath形式挂载的Secret数据卷,当Secret 被更新时,Kubernetes无法自动更新数据卷中的数据。 使用密钥设置工作负载的环境变量 使用控制台方式 登录CCE控制台,单击集群名称进入集群。
L文件差异后提交升级。 编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、守护进程集、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。 登录CCE控制台,进入一个已
使用CCE设置工作负载访问方式时,端口如何填写? CCE支持工作负载的内部互访和被互联网访问两种方式。 内部访问:包括集群内访问(通过集群虚拟IP)和节点访问(通过节点私有IP)两种方式。 表1 内部访问类型说明 内部访问类型 说明 端口如何填写 集群内访问(通过集群虚拟IP)
可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。适合企业备份/归档、视频点播、视频监控等多种数据存储场景。 专属分布式存储服务(Dedicated Distributed Storage Service,DSS)可以为您提供独享的物理存储资源,通过数据冗余和缓存加速
中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将磁盘挂载到容器中/data路径下,在该路径下生成的容器数据会存储到云硬盘中。
CCE使用/var/paas目录进行基本的节点管理活动并存储属主和属组均为paas的文件数据。 当前集群升级流程会将/var/paas路径下的文件的属主和属组均重置为paas。 请您参考下述命令排查当前业务Pod中是否将文件数据存储在/var/paas路径下,修改避免使用该路径,并移除该路径下的异常文件后重试检查,通过后可继续升级。
GPU视图 GPU资源指标可以衡量GPU性能和使用情况,包括GPU的利用率、温度、显存等方面的监控数据,帮助您掌控GPU运行状况。 指标说明 图1 GPU资源指标 表1 GPU图表说明 图表名称 单位 说明 集群-显存使用率 百分比 集群的显存使用率 计算公式:集群内容器显存使用总量/集群内显存总量
配置管理-容器引擎配置 单容器可用数据空间 单容器可用数据空间 参数名 取值范围 默认值 是否允许修改 作用范围 devmapper-base-size 大于等于0 0 支持初始化时配置,不支持后续修改 CCE Standard/CCE Turbo 当前仅devicemapper场景支持限制,overlayfs不支持
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
容器运行时(docker)的路径 /var/lib/docker 数据盘空间分配设置为“共享磁盘空间”: /mnt/paas/runtime 同时创建了/var/lib/docker -> /mnt/paas/runtime的软链接 数据盘空间分配设置为“指定磁盘空间”:与Kubernete
其他用户可能会误删除不属于自己的集群。因此,您可以为重要的集群设置禁止删除的保护措施,防止通过控制台或API误删除集群,避免集群中的重要数据丢失。 禁止用户删除集群 登录CCE控制台,单击集群名称进入集群控制台。 在集群控制台左侧导航栏中选择“配置中心”。 单击“配置概览”页签
manager)中没有包含对Pod中挂载的/etc/hosts文件的临时存储占用量管理,因此在特定的攻击场景下,一个挂载了/etc/hosts的Pod可以通过对该文件的大量数据写入占满节点的存储空间,从而造成节点的拒绝访问(Denial of Service)。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间
挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将该存储卷挂载到容器中/data路径下,在该路径下生成的容器数据会存储到本地持久卷中。
中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 本例中将磁盘挂载到容器中/data路径下,在该路径下生成的容器数据会存储到磁盘中。
109% 问题根因 出现该问题的原因是kubectl top node是调用kubelet的metrics API来获取数据的,因此看到的是节点上已使用的资源总和除以可分配的所有资源。 社区issue链接:https://github.com/kubernete
由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此升级前需要重新安装开源版本grafana插件。 重新安装grafana不会影响已有的数据。 手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件,需要手动修改服务的选择器的配置,请及时修改对应的选择器。
default-secret 在Volume中引用Secret 在Volume中引用Secret,就是通过文件的方式直接将Secret的每条数据填入Volume,每条数据是一个文件,键就是文件名,键值就是文件内容。 如下示例中,创建一个名为vol-secret的Volume,这个Volume引用
CCE集群新增节点时的问题与排查方法? 注意事项 同一集群下的节点镜像保证一致,后续新建/添加/纳管节点时需注意。 新建节点时,数据盘如需分配用户空间,分配目录注意不要设置关键目录,例如:如需放到home下,建议设置为/home/test,不要直接写到/home/下。 请注意“挂
Dockerfile内容如下: # 表示以centos7.1.1503为基础镜像 FROM centos:7.1.1503 # 创建文件夹,存放数据和依赖文件,建议多个命令写成一条,可减少镜像大小 RUN mkdir -p /usr/local/mongodb/data \ &&