检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ai_watchdog_detection_warnings 表1 ai_watchdog_detection_warnings参数 参数 类型 描述 event text 事件名称。 cause text 事件原因。 details text 事件详情。 time timestamp
ai_watchdog_monitor_status 表1 ai_watchdog_monitor_status参数说明 参数 类型 描述 metric_name text metric指标名称: tps:TPS。 tps_hourly:每小时的TPS均值。 shared_used_mem:共享内存使用量(MB)。
导入CCE工作负载 API网关支持导入云容器引擎(Cloud Container Engine,简称CCE)工作负载,提供API注册开放CCE服务能力。 如果当前实例不支持“导入CCE工作负载”,请联系客服。 注意事项 仅支持华为云CCE Turbo集群、VPC网络模型的CCE集群。
AI GS_MODEL_WAREHOUSE GS_OPT_MODEL GS_ABO_MODEL_STATISTIC 父主题: 系统表
nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费。具体算法是,观察Job下的Pod已调度数量是否满足了最小运行数量,当Job的最小运行数量得到满足时,为Job下的所有Pod执行调度动作,否则,不执行。 基于容器组概念的Gang调度算法十分适合需要多进程协作的场景。AI场景往往包含复杂的流程,Data
sdk.core.auth.ICredential; // 对用户身份进行认证 import com.huaweicloud.sdk.core.auth.BasicCredentials; // 请求异常类 import com.huaweicloud.sdk.core.exception
依赖关系 CCE.Service 依赖关系 CCE.Ingress 依赖关系 CCE.StatefulSet 依赖关系 CCE.NodePool 依赖关系 CCE.Deployment 依赖关系 CCE.Pod 依赖关系 RDS.PostgreSQL 被包含关系 CCE.Cluster
CCE云容器引擎 云容器引擎(Cloud Container Engine,简称CCE)提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,可以在云上轻松部署、管理和扩展容器化应用程序。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
louvain算法(louvain) 功能介绍 根据输入参数,执行Louvain算法。 Louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现较好,并且能够发现层次性的社区结构,其优化目标是最大化整个社区网络的模块度。 URI POST /ges/v1.0/{p
基于该插件,支持用户在短时高负载场景下,将部署在云容器引擎CCE上的无状态负载(Deployment)、有状态负载(StatefulSet)、普通任务(Job)、定时任务(CronJob)四种资源类型的容器实例(Pod),弹性创建到云容器实例CCI服务上,以减少集群扩容带来的消耗。 安装插件 登录CCE控制台。 选
是 max-min fairness 算法的泛化版本,可以支持多种类型资源的公平分配, 即每个用户的主资源满足 max-min fairness 要求。 每个Job资源的Share值计算如下: Share = Total Request / Cluster Resources 当
申请对应的虚机大小:1000pod+1000CM(300KB)推荐2U4G规格节点,2000pod+2000CM推荐4U8G规格节点,4000pod+4000CM推荐8U16G规格节点。 网络互通 开启后,支持CCE集群中的Pod与CCI集群中的Pod通过Kubernetes S
CCE启动实例失败时的重试机制是怎样的? CCE是基于原生Kubernetes的云容器引擎服务,完全兼容Kubernetes社区原生版本,与社区最新版本保持紧密同步,完全兼容Kubernetes API和Kubectl。 在Kubernetes中,Pod的spec中包含一个res
向Kubernetes平台发起请求,请Kubernetes根据Pod模板产生对应的Pod对象,Pod对象会向Jenkins Master发起请求,Master连接成功后,就可以在Pod上面执行Job了。 图1 K8s安装Jenkins架构 操作流程 Jenkins Master安装部署。
/api/v1/namespaces/{namespace}/pods 列出Pod GET /api/v1/pods 更新指定的Pod PATCH /api/v1/namespaces/{namespace}/pods/{name} Deployment 创建Deployment POST
配置RAID RAID概述 自定义组RAID 父主题: 磁盘
删除AI应用 功能介绍 删除AI应用,根据AI应用ID删除指定AI应用,cascade取值为true时除了删除AI应用ID指定的AI应用,还会删除其他与指定AI应用同名不同版本的AI应用;默认只删除当前AI应用ID所对应的AI应用。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据
WAIT_EVENT_INFO WAIT_EVENT_INFO视图显示wait event的具体信息。 表1 WAIT_EVENT_INFO字段 名称 类型 描述 module text event所属的模块名。 type text event类型。 event text event名称。
CCE容器网络扩展指标 插件简介 CCE容器网络扩展指标插件(CCE Network Metrics Exporter)是一款CCE Turbo集群容器网络可观测性增强插件,能提供CCE Turbo集群容器网络相关的各项监控数据,帮助您观测各种容器网络流量以及快速发现和定位容器网