检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
xlsx”格式,文件命名中包含时间戳。 单击Pod名称可以查看Pod的详细监控数据。更多相关内容,请参见Pod监控。 监控 在此处,您可以方便地查看节点在近1小时、近8小时、近24小时以及自定义时间段内各维度资源的使用情况。如需查看更多监控信息,请单击“查看全部仪表盘”,跳转至“仪表盘”页面,相应指导请参见使用仪表盘。
在左侧菜单栏选择“工作负载”,单击右上角“创建负载”。 填写工作负载参数。 基本信息 负载类型:选择无状态负载。 负载名称:wordpress。 命名空间:default。 实例数量:本例中实例数量设置为2。 图1 设置工作负载基本信息 容器配置 在基本信息中单击“选择镜像”,在弹出的窗口中选择“镜像中心”,
您需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 该特性仅在使用独享型ELB时支持配置。 该特性依赖ELB高级转发策略,开启后将不再根据域名/路径匹配确定优先级,请您根据实际需要自定义转发策略优先级。关于转发策略优先级详情请参见ELB Ingress转发策略优先级说明。 通过kubectl命令行配置
ingress.kubernetes.io/upstream-hash-by: "$request_uri$host"代表按照请求uri和域名进行hash。 nginx.ingress.kubernetes.io/upstream-hash-by: "${request_uri}
Service,简称CTS)为您提供云服务资源的操作记录,记录内容包括您从云管理控制台或者开放API发起的云服务资源操作请求以及每次请求的结果,供您查询、审计和回溯使用。 表1 云审计服务支持的CCE操作列表 操作名称 资源类型 事件名称 创建用户委托 集群 createUserAgencies
kubectl使用报错:Error from server (Forbidden) 故障现象 使用kubectl在创建或查询Kubernetes资源时,显示如下内容。 # kubectl get deploy Error from server (Forbidden): deployments
命名空间因APIService对象访问失败无法删除 问题现象 删除命名空间时,命名空间一直处“删除中”状态,无法删除。查看命名空间yaml配置,status中有报错“DiscoveryFailed”,示例如下: 上图中报错信息为:Discovery failed for some groups, 1 failing:
节点运行正常且有GPU资源,但报如下失败信息: 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
层消息交换格式。同时GRPC采用HTTP/2标准协议实现,提供了多路复用、头部压缩、流控等特性,极大地提高了客户端与服务端的通信效率。更多信息参见Introduction to gRPC。 图1 gRPC示意图 在gRPC中,客户端应用程序可以直接调用位于不同机器上的服务端应用方
造成宿主机上敏感信息泄露。 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2022-23648 中 2022-02-28 漏洞影响 用户在使用了恶意构造的镜像时,会导致容器内可获取主机上的任意文件的只读副本,从而泄露敏感信息。 该漏洞影响范围如下:
io/not-ready:NoExecute 当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key: "key1" operator:
其他相关指标,更多GPU指标请参见可观测指标。 登录Grafana页面查看GPU信息 如您安装了Grafana,您可通过导入NVIDIA DCGM Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage
Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules
如果工作负载状态为“未就绪”,可通过查看Pod的事件等信息确定异常原因,详情请参见Pod事件查看方法。根据事件,参考Pod常见异常问题查找异常的解决方案。 如果工作负载状态为“处理中”,一般为过程中的状态,请耐心等待。 如果工作负载状态为“运行中”,一般无需处理。如果出现状态正常但无法
康检查。监控信息已适配Prometheus格式,可以通过调用Prometheus接口查看监控数据。 本文以实际示例介绍如何通过Prometheus查看CCE Turbo集群容器网络扩展指标,具体步骤如下: 安装插件 监控容器网络扩展指标 (可选)通过Grafana查看图表 前提条件
dockerconfigjson内容的步骤如下: 获取镜像仓库的登录信息: 镜像仓库地址:本文中以address为例,请根据实际信息替换。 用户名:本文中以username为例,请根据实际信息替换。 密码:本文中以password为例,请根据实际信息替换。 使用Base64将键值对username:
出现以上问题的原因是宿主机上有其他进程正在使用该设备。 解决方法 您需要登录到Pod所在宿主机上查找正在使用该设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存储设备,其中<mount-path>为错误信息中显示的挂载路径。 mount | grep <mount-path>
canal命令查询canal服务运行状态,若回显状态异常,请执行systemctl restart canal命令后重新查询状态。 如果您的集群是1.17.17以上,且是VPC网络或云原生网络2.0,请登录该节点,执行systemctl status yangtse命令查询yangt
如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。 表1 GPU插件隔离事件 事件原因 详细信息 描述 隔离结果 GPUMemoryError Device=%s
创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围: 不涉及 说明: 任务信息具有一定时效性,仅用于短期跟踪任务进度,请勿用于集群状态判断等额外场景。