检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
t/configuration/。 查看alertmanager-alertmanager有状态负载的yaml可以看到告警数据存放在Pod磁盘中,如果Pod重启,告警数据就会消失。如需要持久化,请规划一个PVC,并修改alertmanager的CR资源,挂载PVC。 父主题: 云原生观测最佳实践
卷名称,可自定义 emptyDir: medium: Memory # emptyDir磁盘介质:设置为Memory时,表示开启内存;设置为空时为原生默认的存储介质类型 sizeLimit: 1Gi
jobID String 参数解释: 任务ID,集群当前状态关联的任务ID。当前支持: 创建集群时返回关联的任务ID,可通过任务ID查询创建集群的附属任务信息; 删除集群或者删除集群失败时返回关联的任务ID,此字段非空时,可通过任务ID查询删除集群的附属任务信息。 约束限制: 不涉及 取值范围:
远程执行脚本的shell模块、支持远程传输文件的file模块、支持暂停流程的breakpoint模块。 约束与限制 仅支持以下操作系统及内核版本: 操作系统 内核版本 CentOS 7.6 >= 3.10.0-1160.15.2.el7.x86_64 Ubuntu 18.04 >=
的顺序性保证是不必要和/或者不应该的。 这些系统仅要求唯一性和身份标志。 有序策略:默认实例管理策略,有状态负载会逐个的、按顺序的进行部署、删除、伸缩实例, 只有前一个实例部署Ready或者删除完成后,有状态负载才会操作后一个实例。 并行策略:支持有状态负载并行创建或者删除所有的实例,有状态负载发生变更时立刻在实例上生效。
不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。 指定节点池调度:指定插件实例部署的节点池。若不指定,将根据集群默认调度策略进行随机调度。 自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。
云审计服务支持的CCE操作列表 CCE通过云审计服务(Cloud Trace Service,简称CTS)为您提供云服务资源的操作记录,记录内容包括您从云管理控制台或者开放API发起的云服务资源操作请求以及每次请求的结果,供您查询、审计和回溯使用。 表1 云审计服务支持的CCE操作列表 操作名称
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
PrecheckTaskMetadata object 升级前检查任务元数据信息 spec PrecheckCluserResponseSpec object 升级前检查任务信息 status PrecheckStatus object 升级前检查任务状态 表5 PrecheckTaskMetadata
果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readinessProbe,用于检查用户业务是否就绪,如果未就绪,则不转发流量到当前实例。一些程序的启动时间可能很长,比如要加载磁盘数据或者要依赖外部的某个模块启动完成才能提供服
开启预置采集后,系统预置的采集任务会由ServiceMonitor/PodMonitor形式转换为方便可视化管理的采集任务形式,您可以方便地对云原生监控插件的系统预置采集任务进行管理,按需开启或关闭采集任务,添加基础免费指标外的采集指标等。 您对系统预置采集任务的管理,在插件升级时可以
实例作为目的端。 步骤一:获取数据上报地址 Prometheus提供了Remote Write标准接口,您可以在CCE云原生监控插件中填写数据上报地址(Remote Write URL),将本地采集到的监控数据远程存储到Prometheus中。 如果您用于接受数据的目的端为第三方
扩缩容。 主要功能 在Kubernetes社区HPA功能的基础上,增加了应用级别的冷却时间窗和扩缩容阈值等功能。 CronHPA提供HPA对象的兼容能力,您可以同时使用CronHPA与HPA。 CronHPA与HPA策略共同使用:CronHPA作用于HPA策略之上,用于定时调整HPA策略的实例数范围。
drainage 图1 排水任务,以下回显表示存在排水任务 请将drainage资源进行删除,删除之后再次触发升级前检查。 执行以下命令删除排水任务。 kubectl delete drainage {排水任务名称} 父主题: 升级前检查异常问题排查
io"是否被删除。 14 节点磁盘检查异常处理 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 15 节点DNS检查异常处理 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 16 节点关键目录文件权限检查异常处理
app 操作符 可以设置四种匹配关系(In、NotIn、Exists、DoesNotExist)。 In:亲和/反亲和对象的标签在标签值列表(values字段)中。 NotIn:亲和/反亲和对象的标签不在标签值列表(values字段)中。 Exists:亲和/反亲和对象存在指定标签名。
动版本。 前提条件 需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 操作步骤 如果您需要使用指定的NVIDIA驱动版本,可以在节点安装新版本GPU驱动,操作步骤如下: 对节点下线,并将节点上的负载进行手动驱逐,结束所有程序对GPU卡的使用。 节点下线 kubectl
digest: sha256:eb7e3bbd*** size: ** 返回容器镜像服务控制台,在“我的镜像”页面,执行刷新操作后可查看到对应的镜像信息。 部署exporter Prometheus可以动态监测,一般来说给资源打上Prometheus对应的annotations,P
WR正常拉取,因此不会出现镜像拉取失败(ErrImagePull)问题。如迁移应用为私有镜像,请执行以下步骤完成镜像更新适配。 将镜像资源迁移至容器镜像服务(SWR),具体步骤请参考客户端上传镜像。 登录SWR控制台查看获取迁移后的镜像地址。 镜像地址格式如下: 'swr.{区域}
ext4: EVS云硬盘存储,详情可参见使用云硬盘存储卷。 nfs:SFS弹性文件存储,详情可参见使用文件存储卷。 obs:OBS对象存储,详情可参见使用对象存储卷。 efs:SFS Turbo极速文件存储,详情可参见使用极速文件存储卷。 options Options object