检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障注入 故障注入是一种有效的测试方法,它能够将错误引入系统,以确保系统能够承受错误的并从错误中恢复。开启故障注入,可以通过配置灵活注入延迟或特定错误,开展故障测试。 以延迟故障注入为例,YAML设置如下: route: - destination: host:
ucs-ctl是管理UCS本地集群的命令行工具,ucs-ctl的详细介绍请参见使用ucs-ctl命令行工具管理本地集群。 纳管节点 在执行机上使用./ucs-ctl config generator -t node -o node.csv命令生成纳管节点时使用的配置文件。 将所需节点的参数写入配置文
接,具有高速、低时延、安全的优势。 图1 私网接入原理 因此,在开启之前,您需要准备满足一个云上虚拟私有云(VPC),并将线下自有IDC的网络环境与该VPC连通。VPC子网网段不能与IDC中已使用的网络网段重叠,否则将无法接入集群,例如,IDC中已使用的VPC子网为192.168
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
在集群从UCS注销后,可能会存在一些RBAC资源残留,您可以根据以下建议清理这些资源。 UCS创建的RBAC资源带有标签"ucs.rbac.policy=true",您可以利用此标签对UCS创建的RBAC资源进行查询、删除等操作。 例如: 父主题: 权限相关
输入对应的关键字,即可查询该条件下的节点。 当节点的CPU限制比率或内存限制比率超过100%时,意味着节点资源超分,节点上的负载限制值(可使用的最大值)之和已经超过了节点规格。如果负载占用资源过高,可能会导致节点异常。 查看集群内节点详情 在节点列表中,单击需要查看详情的节点名称
态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户定义使用的GPU数量,提高GPU利用率。 GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存大小,算力分配粒度为5%GPU,显存分配粒度达MB级别。 隔离:支持显存和算力的严格隔离,支持单显存隔离,算力与显存同时隔离两类场景。
控制台更新服务路由操作步骤如下: 登录UCS控制台,单击左侧导航栏中的“服务网格”,进入服务网格列表页。 单击服务网格名称,进入服务网格详情页。 在左侧导航栏,单击“流量治理 > 服务路由”,进入服务路由列表页面。 单击列表右侧操作列下的“YAML编辑”。 根据实际需求,例如修改URI更新服务路由,YAML设置如下:
修改虚拟机SSH配置来解决问题。 执行以下命令: vim /etc/ssh/sshd_config 按“i”进入编辑模式。 将useDNS的值设置为no。 按“ESC”,并输入:wq!保存退出。 父主题: 本地集群
创建服务路由 YAML创建服务路由 以HTTP匹配条件为例,通过YAML创建服务路由,步骤如下: 登录UCS控制台,单击左侧导航栏中的“服务网格”,进入服务网格列表页。 单击服务网格名称,进入服务网格详情页。 在左侧导航栏,单击“流量治理 > 服务路由”,进入服务路由列表页面。
参照表1设置新增配置参数。 表1 新建配置参数说明 参数 参数说明 名称 新建的配置项名称,同一个命名空间里命名必须唯一。 命名空间 新建配置项所在的命名空间,默认为当前查看的命名空间。 描述 配置项的描述信息。 配置项数据 工作负载配置的数据可以在容器中使用,或被用来存储配置数据。 单击 ,输入键
中心编辑对应插件。 选择对应的VPC终端节点。若不存在可用的VPC终端节点,单击“创建终端节点”以创建VPC终端节点。再次提交工单云日志服务(LTS)的VPC终端节点需要经过LTS服务审批,操作方法请参见步骤一:云日志服务VPC终端节点授权。 创建的VPC终端节点需要和本地集群节点在同一个虚拟私有云或建立对等连接。
整卡模式:整卡模式采用 Kubernetes 默认的调度方式,将 Pod 调度至满足 GPU 资源需求的节点上。 共享模式:共享模式可将多个 Pod 调度至同一张 GPU 卡上抢占式运行,负载资源使用率波动较大时能提高空闲 GPU 资源使用率 虚拟化模式:采用自研的 GPU 虚拟化技术,能够动态对
北京四为网格控制面所在region。 网段约束 各集群所在的VPC网段不能冲突。 各集群所设置的容器网段不能冲突。 CCE网络插件实现会在路由表中添加路由,为了防止路由冲突造成网络无法联通,集群的VPC网段不能与其他集群的容器网段冲突。 操作步骤 登录云连接CC控制台,单击右侧“创建云连接”按钮。
er-0调度到的节点上的容器存储挂载容量满足所输入的容量大小。 使用Local Storage将会在您的集群内创建monitoring命名空间(如果不存在),以及local-storage类型的PV及PVC,请保证您指定的节点上存在所输入的目录以及该目录满足所输入的容量大小。 容
查看集群详情 集群详情页面提供了单个集群的监控情况,包含资源概况、资源消耗TOP统计和用量统计多维度的信息概况。通过集群监控您可以及时了解集群的资源使用情况和趋势,快速响应可能存在的风险项,保证集群流畅运行。 您可以将鼠标悬停在图表上,以便查看每分钟的监控数据。 图1 集群详情页面 表1
请按表1识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 表1 排查思路 可能原因 处理措施 购买套餐包中集群类型与实际接入的集群类型不一致 购买所接入集群类型对应的套餐包 购买套餐包中集群规模小于实际接入的集群规模 购买集群规模更大的、符合所接入集群规模的套餐包,或保证账户中的余额充足
图1 Pod列表页面 您可以利用页面左上方的命名空间,以及列表上方的实例名称、状态、实例IP和所在节点进行筛选,快速定位所需的实例。 在列表的右上角,您可以单击按钮来导出全部实例数据,或者选择部分实例进行导出,此时仅导出所选中的数据。导出的文件为“.xlsx”格式,文件命名中包含时间戳。
登录UCS控制台,单击左侧导航栏中的“服务网格”,进入服务网格列表页。 单击服务网格名称,进入服务网格详情页。 在左侧导航栏,单击“服务网关 > 网关实例”,进入网关实例列表页面。 单击待删除服务网关操作类下“更多”按钮,单击“删除”。 删除网关将会同步删除其对应的工作负载Pod、Loadbalancer
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。