检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
40及以上时,支持部署dcgm-exporter组件。 启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请在云原生监控插件中开启上报至AOM服务开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE
开通单集群视角成本洞察 开通成本洞察需要安装云原生监控插件,插件采集的监控指标将上报至AOM实例,AOM针对基础指标免费,自定义指标由AOM服务收费,具体请参考价格详情。成本洞察能力使用的监控指标均为基础指标。 开通成本洞察会在“华北-北京四”区域创建一个OBS桶,用来存放从费用中
在创建集群之前,您需要创建密钥对,用于登录工作节点时的身份验证。 如果用户已有密钥对,可重复使用,不需多次创建。 操作步骤 登录管理控制台,选择“计算 > 弹性云服务器”。 在左侧导航树中,选择“密钥对”。 单击“创建密钥对”,并按照提示完成创建,详情请参见密钥对。 创建完成后,系统生成密钥文件,自动保存在系统默认目录下。
仔细检查主机名是否正确,检查域名的拼写并删除多余的空格。 检查DNS设置。在运行应用程序之前,通过ping hostname命令确保DNS服务器已启动并正在运行。如果主机名是新的,则需要等待一段时间才能访问DNS服务器。 检查CoreDNS实例的CPU、内存使用率监控,确认是否已到达性能瓶颈,具体操作步骤请参见排查项
9系统报此错误属正常现象,也可通过下述解决方案进行处理。 解决方案: 确认报错unknown authority的第三方镜像服务器地址和端口。 从"实例拉取镜像失败"事件信息中能够直接看到报错的第三方镜像服务器地址和端口,错误信息为: Failed to pull image "bitnami/redis-cluster:latest":
后单击刷新按钮。 说明: 修改“数据盘加密”配置时,仅对新增节点生效,存量节点即使重置也无法同步配置。 增加数据盘 弹性云服务器最多可以添加16块,裸金属服务器最多可以添加10块。默认情况直接创建为裸盘,不做任何处理。您也可以展开高级配置,选择如下配置。 默认:默认情况直接创建为裸盘,不做任何处理。
连接集群。 kubectl安装成功后,执行如下命令授予集群权限。 # 创建服务账号 kubectl create serviceaccount spark # 将集群角色spark-role和上一步创建服务账号绑定,并指定default命名空间授予edit的clusterrole权限
b2887be kubernetes.io/elb.port: '80' # 表示访问svc-hello1服务,请确保svc-hello1服务存在 kubernetes.io/elb.conditions.svc-hello1: | [
--name=<service-name> 以上命令会给Deployment创建一个服务,--port为服务暴露出去的端口,--type为服务类型,--target-port为服务对应后端Pod的端口,port提供了集群内部访问服务的入口,即ClusterIP:port。 run 在集群中运行一个特定的镜像。
S密钥是否有效 如果以上排查思路仍无法解决您的问题,请提交工单寻找客服人员协助您进行定位。 排查项一:安全组是否被修改 登录控制台,选择“服务列表 > 网络 > 虚拟私有云 VPC”,单击左侧导航栏的“访问控制 > 安全组”,找到集群控制节点的安全组。 控制节点安全组名称为:集群名称-cce-control-编号。
过selector选择到标签“app:nginx”的Pod,目标Pod的端口为80,Service对外暴露的端口为8080。 访问服务只需要通过“服务名称:对外暴露的端口”接口,对应本例即“nginx:8080”。这样,在其他Pod中,只需要通过“nginx:8080”就可以访问到“nginx”关联的Pod。
图5 添加服务 “高级配置”步骤可以保持默认,直接单击“创建工作负载”,完成工作负载创建。 在创建成功页面单击“返回工作负载列表”,查看工作负载状态,若显示为“运行中”则jenkins应用已可以正常访问。 登录并初始化Jenkins 在CCE控制台,单击左侧栏目树中的“服务”,在“
txt 然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。 相关链接 工作负载异常:GPU节点部署服务报错 父主题: 节点运行
统原有的ownership。 vers 3 文件系统版本,目前只支持NFSv3。取值:3 nolock 无需填写 选择是否使用NLM协议在服务器上锁文件。当选择nolock选项时,锁对于同一主机的应用有效,对不同主机不受锁的影响。 timeo 600 NFS客户端重传请求前的等待时间(单位为0
deleted 示例2:创建挂载负载均衡类型服务的ClickHouse集群 本节将为您介绍如何创建挂载负载均衡类型服务的ClickHouse集群,挂载负载均衡类型服务可以帮助您从公网访问ClickHouse集群。 创建挂载负载均衡类型服务的ClickHouse集群,方便您从公网访问ClickHouse集群。
更多信息请参见Kubernetes控制节点上的CPU管理策略。 影响范围 开启了CPU管理策略的集群。 解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。 删除命令示例如下: rm -rf /mnt/paas/kubernetes/kubel
Running 0 12m 可以看到kube-system有很多Pod,其中coredns是用于做服务发现、everest-csi是用于对接存储服务、icagent是用于对接监控系统。 这些通用的、必须的应用放在kube-system这个命名空间中,能够做到与其他
为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE服务会将CPU使用率
获取方法:在CCE控制台,单击顶部的“服务列表 > 存储 > 弹性文件服务”,选择SFS Turbo,在弹性文件服务列表中可以看到“共享路径”列,即为极速文件存储的共享路径。 everest.io/enterprise-project-id 否 极速文件存储的项目ID。 获取方法:在弹性文件服务控制台,单击左侧栏目树中的“SFS
的IP。 图5 CCE侧查看节点IP 登录节点。本示例通过管理控制台远程登录(VNC方式)。 在弹性云服务器的远程登录窗口,执行以下命令,验证网络互通情况。 ping {弹性服务器地址} 以vpc-ER-demo2这个VPC下的集群为例,登录节点er-demo2-04260,访问