检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何修复出现故障的容器网卡? 节点无法连接互联网(公网),如何排查定位? 如何解决VPC网段与容器网络冲突的问题? ELB四层健康检查导致java报错:Connection reset by peer Service事件:Have no node to bind,如何排查? 为什么登录虚拟机VNC界面会间歇性出现Dead
它需要处理很多个环节。如图1所示,除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲,如果要做模型训练,就不得不搭建一套AI计算平台,这个过程耗时费力,而且需要很多的知识积累。 图1 模型训练环节
负载均衡实例需与当前集群处于相同VPC 且为相同公网或私网类型。 负载均衡实例需要拥有至少两个监听器配额,且端口80和443没有被监听器占用。 添加Nginx Ingress 本节以Nginx作为工作负载并添加Nginx Ingress为例进行说明。 登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“服务”
载(Deployment/StatefulSet)和普通任务(Job)使用,主要面向大数据分析、静态网站托管、在线视频点播、基因测序、智能视频监控、备份归档、企业云盘(网盘)等场景。 相关参考 CCE支持挂载第三方租户的OBS桶,包含OBS并行文件系统(优先)和OBS对象桶,使用方法请参见挂载第三方租户的对象存储。
要输入的KMS密钥ID(包含他人共享的KMS密钥),且该密钥必须位于当前Region下。 增加数据盘 弹性云服务器最多可以添加16块,裸金属服务器最多可以添加10块。默认情况直接创建为裸盘,不做任何处理。您也可以展开高级配置,选择如下配置。 默认:默认情况直接创建为裸盘,不做任何处理。
过程中,不同的业务架构有着不同的部署方案,不同架构的应用有着不同的演进节奏,不同的团队有着性能和服务质量的平衡点。面对这样复杂的场景,应该如何化繁为简,帮助用户有步骤的提升资源利用率和控制成本呢? CCE通过多年在混合部署领域的探索和实践,围绕Volcano和Kubernetes
荐您使用IAM实现权限管理。 若您使用企业项目设置子用户权限,会有如下功能限制: 在CCE控制台,集群监控获取AOM监控的接口暂不支持企业项目,因此企业项目子用户将无法查看监控相关数据。 在CCE控制台,由于创建节点时的密钥对查询接口不支持企业项目,因此企业项目子用户将无法使用“
tions实现。在使用kubectl创建时,会用到注解,具体请参见添加Ingress时自动创建ELB和添加Ingress时对接已有ELB。 配置完成后,单击“确定”。创建完成后,在Ingress列表可查看到已添加的Ingress。 在ELB控制台可查看通过CCE自动创建的ELB,
er组件进行监控,您需要在集群中安装云原生监控插件。通过插件自带的grafana组件,您可以使用Kubernetes监控概述仪表盘来可视化和监控 Kubernetes API服务器请求以及延迟和etcd延迟指标。 在集群中自建Prometheus的场景,您可以手动添加指标,详情请参见Master节点组件指标监控。
插件简介 CCE集群备份恢复插件(e-backup)提供集群备份恢复能力。它将用户应用数据和业务数据备份到OBS桶中,并提供数据的本地备份和远程备份的能力。 使用约束 备份/恢复过程中,用户要保证集群处于稳态,不要触发增删改等变更行为,以免出现备份/恢复失败或不完整; 若集群发生变
CCE支持采集NGINX Ingress日志,并借助LTS日志服务进行多维度分析,并为NGINX日志配置结构化和仪表盘,支持监控中心、访问中心和秒级监控仪表盘,满足不同场景的监控需求。详情请参见NGINX仪表盘模板。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“日志中心”。 选
开启后将禁止删除或退订集群。 集群控制节点可用区 您可查看集群控制节点数量,如果需要查看控制节点资源使用率等数据,请单击右上角“查看监控”,前往监控中心页面查看。 已安装插件 您可查看集群中已安装的插件,当集群中存在可以升级的插件时,请单击“前往升级”,在插件中心页面进行查看。 父主题:
单击企业路由器名称,并选择“连接”页签。详情可参见在企业路由器中添加VPC连接。 在“连接”页签下,单击“添加连接”。弹出“添加连接”页面。 根据界面提示,配置连接的基本信息,如表2所示。 图3 连接创建页面 表2 添加连接-参数说明 参数名称 参数说明 取值样例 名称 “虚拟私有云(VPC)”连接的名称,支持修改。
责清晰,参数定义简单直观,学习成本低。 镜像构建功能全面:原生支持较多常用功能模块,例如Provisioner中支持使用远程执行脚本的shell模块、支持远程传输文件的file模块、支持暂停流程的breakpoint模块。 约束与限制 CCE节点镜像使用建议: 节点镜像推荐优先使
志采集插件采集容器日志 详细方法请参见Kubernetes事件上报应用运维管理(AOM) 监控目录数 目录递归深度最多5层,最大不超过1000个文件。 支持最多3层模糊匹配目录。 - 监控文件数 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgen
5-r0、v1.23.3-r0及以上版本 添加资源标签 具体使用场景和示例请参见添加Ingress时自动创建ELB。 表3 添加资源标签注解 参数 类型 描述 支持的集群版本 kubernetes.io/elb.tags String 为ELB添加资源标签,仅自动创建ELB时支持设置。
参考排查项继续排查)。 检查节点监控 登录CCE服务控制台。 在界面中选择需要检查节点所在的集群。 在集群列表页面单击“节点管理”,切换到“节点”一栏,在异常节点所在行单击“监控”。 单击“监控”页签顶部的“查看更多”,前往运维管理页面查看历史监控记录。当节点CPU和内存负载过高
Nginx Ingress Controller的可观测性 华为云提供了云原生监控插件,可以实现对Nginx Ingress Controller的可观测性监控,帮助您更好地了解Ingress流量状态。操作详情请参见监控NGINX Ingress控制器指标。 Nginx Ingress Controller进阶功能
DaemonSet NPU指标 指标 监控级别 备注 cce_npu_memory_total NPU卡 NPU卡显存总量 cce_npu_memory_used NPU卡 NPU卡显存使用量 cce_npu_utilization NPU卡 NPU卡算力使用率 如何确认节点NPU驱动已安装完成
E-2019-11478、CVE-2019-11479),这些漏洞与最大分段大小(MSS)和TCP选择性确认(SACK)功能相关,攻击者可远程发送特殊构造的攻击包造成拒绝服务攻击,导致服务器不可用或崩溃。 华为云CCE团队已经紧急修复Linux内核SACK漏洞,并已发布解决方案。