检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Service的详细介绍请参见服务概述。 Ingress Service是基于四层TCP和UDP协议转发的,而Ingress可以基于七层的HTTP和HTTPS协议转发,可以通过域名和路径做到更细粒度的划分,如下图所示。 图2 Ingress-Service Ingress的详细介绍请参见路由概述。 网络访问场景 工作负载网络访问可以分为如下几种场景。
io/not-ready:NoExecute 当Pod对这些污点存在容忍策略时,Pod不会进行重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key: "key1" operator:
CoreDNS配置一致性检查异常处理 检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 41 节点Sudo检查异常处理 检查当前节点sudo命令,sudo相关文件是否正常。 42 节点关键命令检查异常处理 检查节点升级依赖的一些关键命令是否能正常执行。
Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules
服务器证书:使用HTTPS协议时需要选择一个服务器证书。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 SNI:选择添加SNI证书,证书中必须包含域名。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 高级配置:单击“添加自定义容器网络配置”,选择“开启HTTP/2”,并将状态设置为“开启”。
操作步骤如下: 登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“节点管理”,勾选GPU/NPU节点,并单击“标签与污点管理”。 单击“新增批量操作”,为GPU/NPU节点添加污点。 选择“污点(Taints)”,并填写键值与污点效果。示例中,为GPU/NPU节点添加acceler
Resource Fairness)是主资源公平调度策略,可以支持多种类型资源的公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。
canal命令查询canal服务运行状态,若回显状态异常,请执行systemctl restart canal命令后重新查询状态。 如果您的集群是1.17.17以上,且是VPC网络或云原生网络2.0,请登录该节点,执行systemctl status yangtse命令查询yangt
群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。 npd运行正常时,单击“故障检测策略”,可查看当前故障检测项。关于NPD检查项列表请参见NPD检查项。 当前节点检查结果异常时,将在节点列表处提示“指标异常”。 您可单击“指标异常”,按照修复建议提示修复。
云硬盘创建或导入CCE后,可以在工作负载中挂载云硬盘。 云硬盘不支持跨可用区挂载。在挂载前,您可以使用 kubectl get pvc 命令查询当前集群所在分区下可用PVC。 约束与限制 如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 请参见通过kub
NPD插件版本过低导致进程资源残留问题 问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件
填写“实例名称”,选择“命名空间”和“选择版本”。 单击“配置文件”后的“添加文件”按钮,选择本地创建的YAML配置文件,单击“安装”。 在“模板实例”页签下可以查看模板实例的安装情况。 测试验证 创建一个工作负载,配置新部署的Nginx Ingress Controller为其提供网络访问。 创建nginx工作负载。
无法访问 无法访问 无法访问 无法访问 解决办法 解决这个问题通常有如下办法: (推荐)在集群内部访问使用Service的ClusterIP或服务域名访问。 将Service的externalTrafficPolicy设置为Cluster,即集群级别服务亲和。不过需要注意这会影响源地址保持。
Controller的节点亲和性配置 N/A 查看NPD事件 NPD上报的事件可以在节点管理页面查询。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”。 在节点所在行,单击“事件”,可查看节点相关事件。 图1 查看节点事件 配置NPD指标告警 针对NPD状态类检
需要合理设置,部分应用启动时间较长,如果设置的时间过短,会导致Pod反复重启。 本示例中配置就绪探针延迟探测时间为20s,用于控制工作负载批量滚动的时间间隔。 图1 存活/就绪探针 设置滚动升级:在高级配置中选择“升级策略”,升级方式设置为“滚动升级”,逐步用新版本实例替换旧版本实例。
该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。 创建、删除节点时,查询相应任务的进度。 调用方法 请参见如何调用API。
string message = 1; } Nginx Ingress中,gRPC服务只运行在HTTPS端口(默认443)上,因此在生产环境中,需要域名和对应的SSL证书。本示例使用 grpc.example.com和自签SSL证书。 步骤1:创建SSL证书 复制以下内容并保存至openssl
台进行创建,详情请参见创建证书。 SNI:当监听器端口启用HTTPS时,可以选择是否添加SNI证书。如果需要添加SNI证书,证书中必须包含域名。如果当前无可选证书,需前往弹性负载均衡控制台进行创建,详情请参见创建证书。 安全策略:当监听器端口启用HTTPS时,支持选择可用的安全策略,更多信息请参见安全策略。v1
io/tls或者IngressTLS类型的secret存放监听器的证书信息 推荐您使用对接已有证书的方式配置 SNI证书 监听器使用的SNI证书(带域名的服务器证书) 参数名 取值范围 默认值 是否允许修改 作用范围 spec.tls[].(secrectName + hosts) 无 无
当集群中的DNS请求量增加时,CoreDNS将会承受更大的压力,可能会导致如下影响: 延迟增加:CoreDNS需要处理更多的请求,可能会导致DNS查询变慢,从而影响业务性能。 资源占用率增加:为保证DNS性能,CoreDNS往往需要更高规格的配置。 为了避免DNS延迟的影响,可以在集群中部署NodeLocal