检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
”,则日志组或日志流不存在,可前往“日志中心>日志采集策略”中,通过“编辑”或“删除”重建日志策略,更新策略中的日志组日志流。 其余报错可前往LTS搜索错误码,查看报错原因。详情请参见LTS错误码。 log-agent-otel-collector组件出现OOM 排查方法: 查看log-a
Pod访问集群外部域名时,优先使用FQDN类型域名访问,这类域名通过常见域名最后加半角句号(.)的方式来指定地址,可以避免search搜索域拼接带来的多次无效搜索,例如需要访问www.huaweicoud.com,则优先使用FQDN类型域名www.huaweicoud.com.来访问。 使用本地域名缓存
集群内访问(ClusterIP) 操作场景 集群内访问表示工作负载暴露给同一集群内其他工作负载访问的方式,可以通过“集群内部域名”访问。 集群内部域名格式为“<服务名称>.<工作负载所在命名空间>.svc.cluster.local:<端口号>”,例如“nginx.default
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分
StorageClass中设置的挂载参数。 前提条件 CCE容器存储(Everest)版本要求1.2.8及以上版本。插件主要负责将挂载参数识别并传递给底层存储,指定参数是否有效依赖于底层存储是否支持。 约束与限制 挂载参数暂不支持安全容器。 由于NFS协议限制,默认情况下,对于某
如图2所示,在“NVIDIA驱动程序下载”框内选择对应的驱动信息。其中“操作系统”必须选Linux 64-bit。 图2 参数选择 驱动信息确认完毕,单击“搜索”按钮,会跳转到驱动信息展示页面,该页面会显示驱动的版本信息如图3,单击“下载”到下载页面。 图3 驱动信息 获取驱动软件链接方式分两种:
设置标签与注解 Pod注解 CCE提供一些使用Pod的高级功能,这些功能使用时可以通过给YAML添加注解Annotation实现。具体的Annotation如下表所示。 表1 Pod Annotation 注解 说明 默认值 kubernetes.AOM.log.stdout 容
kubeStateMetrics (负载名称:kube-state-metrics) 将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metrics组件在默认配置下,不采集K8s资源的所有labels和annotation。如需采集,请参考采
如何获取TLS密钥证书? 场景 当您的Ingress需要使用HTTPS协议时,创建Ingress时必须配置IngressTLS或kubernetes.io/tls类型的密钥。 以创建IngressTLS密钥证书为例,如图1: 图1 创建密钥 这里上传的证书文件和私钥文件必须是配套的,不然会出现无效的情况。
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
服务加入Istio后,如何获取客户端真实源IP? 问题现象 服务启用Istio后,访问日志中无法获取到客户端源IP。 解决方案 本文以绑定ELB类型Service的nginx应用为例,详细步骤如下: ELB侧开启获取客户端IP 独享型ELB默认开启源地址透传功能,无需手动开启。
StorageClass中设置的挂载参数。 前提条件 CCE容器存储(Everest)版本要求1.2.8及以上版本。插件主要负责将挂载参数识别并传递给底层存储,指定参数是否有效依赖于底层存储是否支持。 约束与限制 挂载参数暂不支持安全容器。 对象存储挂载参数 CCE的存储插件ev
更有针对性,更加及时。 本方案的关键点是获取ELB的指标数据并上报到Prometheus,再将Prometheus中的数据转换成HPA能够识别的metric数据,然后HPA根据metric数据进行弹性伸缩。 基于ELB监控指标的弹性伸缩具体实施方案如下所示: 开发一个Prometheus
为什么容器无法连接互联网? 当容器无法连接互联网时,首先需要排查容器所在节点能否连接互联网。其次,需要查看容器的网络配置是否正确,例如DNS配置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
竞价计费型实例存在中断机制,实例生命周期不可控,请勿使用竞价计费型实例运行需长时间作业、或稳定性要求极高的服务。 详情请参见ECS计费项。 及时清理闲置资源 及时识别并清理集群中闲置的云服务或者资源,比如未被使用的ECS、EVS、OBS、ELB、EIP等资源。 工作负载资源配置优化 资源请求和限制配置的
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求
模板格式不正确,无法删除模板实例? 问题现象 若上传的模板中包含不正确或者不兼容的资源,会导致安装模板失败,类似下图: 此时模板实例无法正常工作。如果您尝试在界面上删除,可能会出现deletion failed的报错,模板实例仍在列表中: 解决方法 您可以使用kubectl命令删除残留的模板实例。
Kubeflow部署 Kubeflow的诞生背景 基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程,它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围