检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。 使用成本洞察期间,需要保证云原生监控插件运行正常,否则影响成本洞察中命名空间、工作负载、节点池等相关视图的呈现。 操作入口 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏中的“云原生成本治理
python -m json.tool 登录检查失败的异常节点,参考上一步重新获取OBS地址,检查是否一致。若不一致,请将异常节点的OBS地址修改为正确地址。 通过以下命令下载最新的二进制文件。 x86系统 curl -k "https://{您获取的obs地址}/cluster-v
在导航栏左侧单击“插件中心”,进入插件中心首页。 选择“CCE 突发弹性引擎 (对接 CCI)”插件,单击“安装”。 配置插件参数。 表1 插件参数说明 插件参数 说明 选择版本 插件的版本。插件版本和CCE集群存在配套关系,更多信息可以参考CCE突发弹性引擎(对接CCI)插件版本记录。
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub
如果想要解决这个问题,可以在定时任务的CronJob中配置参数:startingDeadlineSeconds。该参数只能使用kubectl命令,或者通过API接口进行创建或修改。 YAML示例如下: apiVersion: batch/v1 kind: CronJob metadata: name: hello
resourcePolicy.containerPolicies 否 为不同的容器指定的VPA策略、VPA资源上下限。详细参数说明请参见表2。 表2 containerPolicy关键字段说明 字段 是否必填 说明 containerName 是 容器名称。 minAllowed 否
工作负载伸缩原理 CCE支持多种工作负载伸缩方式,策略对比如下: 表1 弹性伸缩策略对比 伸缩策略 HPA策略 CronHPA策略 CustomedHPA策略 VPA策略 AHPA策略 策略介绍 Kubernetes中实现POD水平自动伸缩的功能,即Horizontal Pod Autoscaling。
例如/healthz/v1,/healthz/v2。 精确匹配:表示只有URL完全匹配时,访问才能生效。例如映射URL为/healthz,则必须为此URL才能访问。 正则匹配:按正则表达式方式匹配URL。例如正则表达式为/[A-Za-z0-9_.-]+/test。只要符合此规则的
name: default-secret 表3 使用已有EIP的annotation配置 annotation 是否可选 参数说明 yangtse.io/eip-id 必选 弹性公网IP的ID。 获取方法: 登录弹性公网IP控制台,在弹性公网IP列表单击需要绑定的EIP名称,找到“ID”字段复制即可。
响应参数 状态码: 200 表4 响应Header参数 参数 参数类型 描述 Port-ID String 集群控制节点端口ID 表5 响应Body参数 参数 参数类型 描述 kind String API类型,固定值“Config”,该值不可修改。 apiVersion String
已运行工作负载不受影响。 s2:三控制节点的集群,即高可用集群,控制节点数为3。当某个控制节点故障时,集群仍然可用。 dec:表示专属云的CCE集群规格。例如cce.dec.s1.small表示小规模单控制节点的专属云CCE集群(最大50节点)。 small:表示集群支持管理的最大节点规模为50节点。
插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效,已安装 NPU 驱动的节点会保持现状。升级或编辑插件参数时修改驱动版本也只对未安装 NPU 驱动的节点生效。 驱动安装成功后需要重启节点才能生效,驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。
认证方式:选择步骤二中第三方监控平台支持的认证方式。 Basic Auth:填写账号及密码。 Bearer Token:填写身份凭据(Token)。 修改完成后,单击“确认配置”。 步骤四:查看数据发送/接收情况 以上配置完成后,即可登录目的端Prometheus控制台,在Graph页面下查看远程写入的Prometheus指标。
11及以上时,插件提供number_of_reserved_disks参数,该参数可以设置节点上预留的挂盘数,预留出部分盘位供用户自定义挂载云硬盘使用。注意,修改该参数将对集群中所有节点生效。 设置number_of_reserved_disks参数后,节点剩余可挂载的云硬盘数量计算如下: 节点剩余挂盘数
node-local-dns:表示安装节点本地域名解析加速插件。 volcano:表示安装Volcano调度器插件。 npd:表示安装CCE节点故障检测插件。 cie-collector:表示安装云原生监控插件。 log-agent:表示安装云原生日志采集插件。 virtual-kubelet:表示安装CCE突发弹性引擎(对接
7m 相关操作 配置项创建完成后,您还可以执行表3中的操作。 表3 其他操作 操作 说明 编辑YAML 单击配置项名称后的“编辑YAML”,可编辑当前配置项的YAML文件。 更新配置 选择需要更新的配置项名称,单击“更新”。 根据表1更改信息。 单击“确定”。 删除配置 选择要删除的配置项,单击“删除”。
kubectl连接集群。 创建名为“nginx.yaml”的YAML文件,此处文件名可自定义。 为工作负载设置nodeSelector,例如,填写的键为“deploy_qa”,值为“true”,这表明该Pod将被调度到有deploy_qa=true标签的节点。示例如下: apiVersion:
在“AI任务性能增强调度”配置中,选择是否开启“公平调度 (drf) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。 修改完成后,单击“确认配置”。 父主题: AI任务性能增强调度
死锁情况造成了GPU资源的浪费。 亲和调度问题 分布式训练中,Ps和Worker存在很频繁的数据交互,所以Ps和Worker之间的带宽直接影响了训练的效率。 Kubernetes默认调度器并不考虑Ps和Worker的这种逻辑关系,Ps和Worker是被随机调度的。如下图所示,2个TFJob(1个Ps
create -f ingress-test.yaml 回显如下,表示Ingress服务已创建。 ingress/ingress-test created 查看已创建的Ingress。 kubectl get ingress 回显如下,表示Ingress服务创建成功。 NAME