检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
please bind private ip tothese elbs and try again 方法二:登录CCE控制台,前往“服务”页面查看服务,单击ELB名称,跳转到ELB界面。 确认ELB实例是否包含IPv4私网IP。 为无IPv4私网IP地址的ELB绑定一个私网IP。 登录CCE控制台,单击目标ELB名称。
启用dcgm-exporter组件后,采集的GPU监控数据如需上报AOM服务,请安装云原生监控插件并开启上报至AOM服务开关,同时前往“配置中心 > 监控运维配置”页开启dcgm-exporter组件的ServiceMonitor。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。
CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。 七层证书配置
##根据实际情况填写 集群信息。也可不写 启动prometheus服务。 配置完毕后,启动prometheus服务 ./prometheus --config.file=prometheus.yml 登录prometheus服务访问页面,查看监控信息。 父主题: 监控
作负载,Prometheus会通过采集配置对这些指标进行采集。详情请参见使用云原生监控插件监控自定义指标。 对接AOM监控服务 AOM实例是应用运维管理服务(AOM)推出的Prometheus监控功能。启用后指标会上报到您选择的AOM实例,其中容器基础指标免费,其他指标按需收费。
(SDK)等工具构建容器,并创建Kubernetes资源训练其模型。模型训练完成后,用户还可以使用KFServing创建和部署用于推理的服务器。再结合pipeline(流水线)功能可实现端到端机器学习系统的自动化敏捷构建,实现AI领域的DevOps。 前提条件 已在CCE创建一个
volumeMount mountPath 容器内挂载路径,此处示例中为“/tmp”。 spec serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。 “spec.template.spec.containers.volumeMounts
图5 添加服务 “高级配置”步骤可以保持默认,直接单击“创建工作负载”,完成工作负载创建。 在创建成功页面单击“返回工作负载列表”,查看工作负载状态,若显示为“运行中”则jenkins应用已可以正常访问。 登录并初始化Jenkins 在CCE控制台,单击左侧栏目树中的“服务”,在“
containers.volumeMounts mountPath 容器内挂载路径。 spec serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。 spec.template.spec.volumes.persistentVolumeClaim
将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务 使用HPA+CA实现工作负载和节点联动弹性伸缩 基于Prometheus指标的弹性伸缩实践 基于ELB监控指标的弹性伸缩实践 通过Nginx
NPD插件版本过低导致进程资源残留问题 问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中
的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮汐现象,但对服务SLA要求较高,如广告业务、电商业务等。 离线作业:往往运行时间短,计算需求大,可容忍较高的时延,如AI/大数据业务。
的集群,在左侧导航栏中选择“服务”。 单击右上角“YAML创建”,创建一个公网LoadBalancer类型的Service。 apiVersion: v1 kind: Service metadata: name: prom-lb #服务名称,可自定义 namespace:
image 工作负载的镜像。 mountPath 容器内挂载路径,示例中挂载到“/tmp”路径。 serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。 “spec.template.spec.containers.volumeMounts
设置告警规则,在创建告警规则面板填写配置。 规则类型:选择“事件告警”,设置基于事件触发的告警规则,常见事件来源为Kubernetes事件和云服务事件。 规则详情: 参数 说明 场景示例 规则名称 自定义告警规则的名称 ReplicaSet副本数变化 描述(可选) 添加告警规则描述。
namespace 具体可参考管理服务账号。 使用CCE密钥管理(对接 DEW)插件 CCE密钥管理(dew-provider)插件用于对接数据加密服务(Data Encryption Workshop, DEW)。该插件允许用户将存储在集群外部(即专门存储敏感信息的数据加密服务)的凭据挂载至业务
ingress-test.yaml 回显如下,表示Ingress服务已创建。 ingress/ingress-test created 查看已创建的Ingress。 kubectl get ingress 回显如下,表示Ingress服务创建成功。 NAME CLASS
not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。 图1 修改IAM用户访问方式 单击“确定”。
端口范围配置 Nodeport类型服务端口范围 service的NodePort模式下能够使用的主机端口号范围,默认是30000-32767 参数名 取值范围 默认值 是否允许修改 作用范围 service-node-port-range 20106-32767 30000-32767
新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName 工作负载对应的服务,服务创建过程请参见创建有状态负载(StatefulSet)。 claimName 已有PVC名称。 spec.template.spec.containers