检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载网络异常时,如何定位排查? 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:容器+容器端口 排查项二:节点IP+节点端口 排查项三:负载均衡IP+端口
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
CCE集群内域名解析失败,如何定位处理? 排查项一:检查是否已安装CoreDNS插件 登录CCE控制台,进入集群。 在左侧导航栏中选择“插件中心”,确认异常的集群是否已安装CoreDNS插件。 如果未安装,请安装。详情请参见为什么CCE集群的容器无法通过DNS解析? 排查项二:检查CoreDNS实例是否已到达性能瓶颈
区域与可用区 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Re
登录GPU节点,通过以下命令查看GPU卡的信息。 nvidia-smi 可以看到该机器上存在1张卡GPU0。本文以GPU0为例,定位使用这张卡的Pod。 根据节点IP(即192.168.0.106)和设备号(即第0张卡)定位使用了该卡的Pod。 kubectl get pods --all-namespaces -o
工作负载状态异常定位方法 工作负载状态异常时,建议先查看Pod的事件以便于确定导致异常的初步原因,再针对性解决问题。 定位流程 工作负载状态异常定位步骤如下: 查看Pod状态是否正常 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 在页面左上角选择命名空间,找到对应的工作负载,查看其状态。
ples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置(需要使用OBS Browser工具)。 例如:桶内文件路径/文件名,文件下载地址可至github中指定项目的指定路径下查找,示例如1、2所示。
通过Core Dump文件定位容器问题 应用场景 Core Dump是Linux操作系统在程序突然异常终止或者崩溃时将当时的内存状态记录下来,保存在一个文件中。通过Core Dump文件可以分析查找问题原因。 容器一般将业务应用程序作为容器主程序,程序崩溃后容器直接退出,且被回收销毁,因此容器Core
管理节点池 更新节点池 更新弹性伸缩配置 修改节点池配置 纳管节点至节点池 复制节点池 同步节点池 升级操作系统 迁移节点 删除节点池 父主题: 节点池
配置管理 ConfigMap Secret
通过kubectl连接集群时,其配置文件config如何下载? 登录CCE控制台,单击需要连接的集群名称,进入“集群信息”页面。 在“连接信息”版块中查看kubectl的连接方式。 在弹出的窗口中可以下载kubectl配置文件kubeconfig.json。 图1 下载kubeconfig
集群网络地址段规划实践 在CCE中创建集群时,您需要根据具体的业务需求规划VPC的数量、子网的数量、容器网段划分和服务网段连通方式。 本文将介绍VPC环境下CCE集群里各种地址的作用,以及地址段该如何规划。 约束与限制 通过搭建VPN方式访问CCE集群,需要注意VPN网络和集群所在的VPC网段、容器使用网段不能冲突。
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
CCE集群中工作负载镜像的拉取策略有哪些? 容器在启动运行前,需要镜像。镜像的存储位置可能会在本地,也可能会在远程镜像仓库中。 Kubernetes配置文件中的imagePullPolicy属性是用于描述镜像的拉取策略的,如下: Always:总是拉取镜像。 imagePullPolicy:
集群删除 集群删除失败:安全组中存在残留资源 冻结或不可用的集群删除后如何清除残留资源 父主题: 集群
Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务后,系统将开始记录CCE资源的操作,并为您保存最近7天的操作记录。CTS支持记录的CCE操作请参见云审计服务支持CCE操作列表。
镜像仓库 如何制作Docker镜像?如何解决拉取镜像慢的问题? 如何上传我的镜像到CCE中使用?
为节点级别。 表格中仅列举了可能存在访问不通的场景,其他不在表格中的场景即表示可以正常访问。 服务端发布服务类型 访问类型 客户端请求发起位置 容器隧道集群(IPVS) VPC集群(IPVS) 容器隧道集群(IPTABLES) VPC集群(IPTABLES) 节点访问类型Service
关于如何在集群中使用NPU,请参见NPU调度。 特权容器(可选) 特权容器是指容器里面的程序具有一定的特权。 若选中,容器将获得超级权限,例如可以操作宿主机上面的网络设备、修改内核参数等。 初始化容器(可选) 选择容器是否作为初始化(Init)容器。初始化(Init)容器不支持设置健康检查。 Init容器是