检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cat k8s.yaml # 部署应用 - kubectl apply -f k8s.yaml .gitlab-ci.yml文件保存后,会立即启动执行流水线,在Gitlab中查看流水线执行情况,如下所示。 验证结果 流水线部署成功后,在CCE控制台找到名为nginx-t
log-agent-fluent-bit-config-service 将配置项中HTTP_Server On改为HTTP_Server Off,并保存。 重启monitoring命名空间下的log-agent-log-operator组件。 父主题: 漏洞公告
statefulset-evs-0 -- ls /data 预期输出如下: lost+found static static文件仍然存在,则说明云硬盘中的数据可持久化保存。 相关操作 您还可以执行表3中的操作。 表3 其他操作 操作 说明 操作步骤 扩容云硬盘存储卷 通过CCE控制台快速扩容已挂载的云硬盘。
在给定时间点只运行一次。 在给定时间点周期性地运行。 CronJob的典型用法如下所示: 在给定的时间点调度Job运行。 创建周期性运行的Job,例如数据库备份、发送邮件。 前提条件 已创建资源,具体操作请参见创建节点。 通过控制台创建 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工
everest-csi-driver -nkube-system 搜索disable-auto-mount-secret,并将值设置为true。 执行 :wq 保存退出,等待实例重启完毕即可。 获取访问密钥 登录控制台。 鼠标指向界面右上角的登录用户名,在下拉列表中单击“我的凭证”。 在左侧导航栏单击“访问密钥”。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
--target-response-auto-auth=true promAdapterConfigOverride: [] 单击“确定”保存配置项,等待约1分钟即可生效。 父主题: 监控中心
"annotations": { "key1" : "value1", "key2" : "value2" } 约束限制: 该字段不会被数据库保存,当前仅用于指定集群待安装插件。 取值范围: 不涉及 默认取值: 不涉及 说明: Annotations不用于标识和选择对象。Annot
删除节点池 删除节点池,会先删除节点池中的节点,节点删除后,原有节点上的工作负载实例会自动迁移至其他节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失
使用PrometheusRules配置普罗监控与告警规则 Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云
e } } } } } } 保存后执行Jenkins job。 父主题: 实施步骤
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
禁止删除集群 在实际使用过程中,您可能会遇到许多误删除集群的场景。例如,如果您的账号为多人协作使用,其他用户可能会误删除不属于自己的集群。因此,您可以为重要的集群设置禁止删除的保护措施,防止通过控制台或API误删除集群,避免集群中的重要数据丢失。 操作步骤 登录CCE控制台,单击集群名称进入集群控制台。
采集Kubernetes事件 CCE 云原生日志采集插件插件可采集Kubernetes事件上报到云日志服务(LTS)和应用运维管理(AOM),用于保存事件信息和事件告警。 费用说明 LTS创建日志组免费,并每月赠送每个账号一定量免费日志采集额度,超过免费额度部分将产生费用(价格计算器)。
默认数据盘空间分配说明 本章节将详细介绍节点数据盘空间分配的情况,以便您根据业务实际情况配置数据盘大小。 设置默认数据盘空间分配 v1.23.18-r0、v1.25.13-r0、v1.27.10-r0、v1.28.8-r0、v1.29.4-r0以下版本的集群中,节点会添加一块默认
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取
设置性能管理配置 操作场景 应用性能管理服务(APM)当前支持给JAVA类工作负载提供调用链、拓扑等监控能力。您可为JAVA类工作负载安装APM探针,以提供更精准的问题分析与定位,协助您高效解决应用难题。 工作负载创建时和创建后,均可以对JAVA类工作负载监控进行设置。 如果您已
通过PromQL语句查询Prometheus数据 PromQL是Prometheus Query Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳
节点关键目录文件权限检查异常处理 检查项内容 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件