检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在cluster-2集群中部署相同的应用,重复执行以上命令,创建相同的工作负载。 步骤2:配置流量复制 cluster-2作为流量的接收方,不需要进行任何配置修改,只需要在cluster-1上配置即可。 在将cluster-1中应用的访问流量复制到cluster-2中对应的应用服务后,客户端只
"request_id": *****"} 解决方案 该告警中的错误码ELB.8902表示请求参数输入有误,详情请参见弹性负载均衡错误码。您需要根据问题原因修改正确的参数配置。 问题现象 问题根因 解决方案 告警信息中包含以下内容: Reason: the number of condition
conf目录,其中RuntimeMaxUse参数表示日志缓存的最大内存占用量。若不配置RuntimeMaxUse,长时间运行会占用较大内存。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 修改节点RuntimeMaxUse 登录节点,查看/etc/systemd/journald
接入密钥:将会自动获取APM服务的密钥信息,可前往APM控制台查看密钥详情。 关于APM2.0参数概念的详细说明,请参见APM参数说明。 应用启动后,等待约3分钟,应用数据就会呈现在APM界面中,此时登录APM,您可以在APM上通过拓扑、调用链等进行应用性能优化,详细操作请参考应用拓扑。 修改性能管理配置
API版本信息 查询API版本信息列表 父主题: API
本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS
修改kubelet参数导致已驱逐的Pod被重新调度 根据GPU/NPU卡信息定位使用该卡的Pod 父主题: 工作负载
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
更改集群节点的默认安全组 操作场景 集群在创建时可指定自定义节点安全组,方便统一管理节点的网络安全策略。对于已创建的集群,支持修改集群默认的节点安全组。 约束与限制 一个安全组关联的实例数量建议不超过1000个,否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。
在监控指标上携带对应label的key-value信息,否则对应label的value为“not found”。使用流粒度监控能力,用户可以更细腻地感知容器的流量信息。基于流的监控数据量较大,会占用更多的cpu和内存,请按需使用。 每开启一个基于流的IP监控任务(一个Monito
Metadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 spec UpgradeInfoSpec object 升级配置相关信息 status UpgradeInfoStatus object 升级状态信息 表3 Metadata 参数 参数类型
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
其Pod拥有共同的label。但有一个label值不同,用于区分不同的版本。Service使用selector选中了其中一个版本的Deployment的Pod,此时通过修改Service的selector中决定服务版本的label的值来改变Service后端对应的Pod,即可实现
诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。 健康诊断将针对不同维度的巡检项,归纳Kubernetes中常见的问题,并提供相应的修复建议。用户可以单击“诊断详情”查看具体诊断项的详细信息以及存在异常的资源。在部分场景下,页面还提供相应的排查文档,供用户参考排查。 图3 诊断结果 父主题: 健康中心
17及以上版本集群2022年1月30日及之前创建的节点,建议您将kernel.pid_max取值修改为4194304,具体方法请参见修改节点kernel.pid_max。 对于1.17.9及以下版本集群 存量节点建议您将kernel.pid_max取值修改为4194304,具体方法请参见修改节点kernel.pid_max。
志以及监控指标,对问题进行全面的分析和判定,并提供具体的修复建议。这种综合诊断方法不仅提高了故障定位的准确性,还显著减少了运维人员的工作负担,从而提升了整体运维效率。 前提条件 已获取资源权限。 集群版本高于v1.17。 集群处于“运行中”状态。 选择Pod进行诊断 登录CCE控制台,单击集群名称进入集群详情页。
共享版:提供简单易用、安全可靠的镜像管理功能。 我的镜像:可选择您上传的私有镜像。关于上传镜像的操作详情请参见客户端上传镜像。 镜像中心:可选择SWR提供的公共镜像。关于镜像中心的说明请参见镜像中心。 共享镜像:可选择由其他账号共享的镜像。关于共享镜像的操作详情请参见共享私有镜像。
镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。 127 找不到文件或目录 无法找到镜像中指定的文件或目录。 128 无效的退出参数 容器退出但未提供有效的退出代码,可能的原因有
域名DNS CCE集群内域名解析失败,如何定位处理? 为什么CCE集群的容器无法通过DNS解析? 为什么修改子网DNS配置后,无法解析租户区域名? 解析外部域名很慢或超时,如何优化配置? 如何设置容器内的DNS策略?
orter暴露的指标,通过Prometheus RemoteWrite的方式,将数据写入至AOM实例。 监控中心将基于AOM实例中存储的指标,提供多维度数据洞察、仪表盘的功能。 云原生监控插件也提供了基于RemoteWrite对接三方云原生监控平台的能力,将集群内的监控指标通过Bearer