检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
务,则您可使用:IPv6弹性公网IP或IPv6双栈。 如果您的应用既需要为使用IPv6终端的用户提供访问服务,又需要对这些访问来源进行数据分析处理,则您必须使用IPv6双栈。 如果您的应用系统与其他系统(例如:数据库系统)、应用系统之间需要使用IPv6进行内网访问,则您必须使用IPv6双栈。
AI任务性能增强调度 针对AI、大数据协作调度场景,可使用Volcano公平调度(DRF)、组调度(Gang)来提升训练性能,提高资源使用效率。 公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可
ck文件: 监控类应用,以DaemonSet形式部署,通过sock文件连接Docker/Containerd,获取节点容器状态信息。 编译平台类应用,通过sock文件连接Docker/Containerd,创建程序编译用容器。 解决方案 问题场景一:检查到应用存在该异常,进行整改。
性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VPC路由网络受限于VPC路由表条目配额的限制,建议集群规模为1000节点及以下。 性能要求高:由于云原生网络2
的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。
相关服务 云容器引擎(CCE)与云容器实例(CCI)的区别是什么? 云容器引擎(CCE)和应用管理与运维平台(ServiceStage)的区别是什么?
工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践 CCE容器实例弹性伸缩到CCI服务 使用HPA+CA实现工作负载和节点联动弹性伸缩
每秒发送到APIServer的突发请求数量上限。 默认:100 - kubelet管理的Pod上限 max-pods Node能运行的Pod最大数量。 CCE Standard集群:由节点最大实例数设置决定。 CCE Turbo集群:由节点网卡数量决定。 - 限制Pod中的进程数 pod-pids-limit
多个云的容器服务上,统一流量分发,单云故障后能够自动将业务流量切换到其他云上,并能快速自动解决现网事故。 统一架构,高弹性 云上云下同架构平台,可灵活根据流量峰值实现资源在云上云下的弹性伸缩、平滑迁移和扩容。 计算与数据分离,能力共享 通过云容器引擎,用户可以实现敏感业务数据与一
在CCE集群中部署使用ClickHouse ClickHouse是一款用于联机分析(OLAP)的列式数据库管理系统,适用于处理大规模数据集的实时查询和分析。ClickHouse容器化部署方式主要有4种,具体请参见表1。ClickHouse Operator是在Kubernetes
由于Docker确保了执行环境的一致性,使得应用的迁移更加容易。Docker可以在很多平台上运行,无论是物理机、虚拟机、公有云、私有云,甚至是笔记本,其运行结果是一致的。因此用户可以很轻易地将在一个平台上运行的应用,迁移到另一个平台上,而不用担心运行环境的变化导致应用无法正常运行的情况。 更轻松的维护和扩展
监控与日志 AOM:应用运维管理(Application Operations Management,简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。
监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则
存储挂载到应用实例。 目前对象存储迁移服务OMS支持亚马逊云(中国)、阿里云、微软云、百度云、华为云、金山云、优刻得、青云、七牛云、腾讯云平台的对象存储数据迁移到华为云对象存储服务OBS。 父主题: 实施步骤
Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力,面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU Burst弹性限流等
索、告警快速配置的能力。用户可以通过告警中心一键配置常用的告警规则。 AOM服务 华为云应用运维管理服务,是云上应用的一站式立体化运维管理平台,是云上监控、告警的基础。 SMN服务 华为云的消息通知服务,是云上应用发送告警或通知的依赖服务。在云原生场景中,在AOM服务触发的告警将
单部门视角的成本洞察 单部门视角成本洞察,提供单一部门的成本分析报告。在部门成本分析模块,进行整体部门成本状况查看,并可单击部门列表中的某一部门,进行单部门的详细成本分析。 前提条件 已开通成本洞察功能 已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。
建议您关注以下配置,其他配置可按需进行设置。详情请参见云原生监控插件。 数据存储配置:必选本地数据存储,可选监控数据是否对接AOM或三方监控平台。 自定义指标采集:该配置在本实践中必须选择开启,否则将无法采集自定义指标。 插件配置完成后,单击“安装”。 步骤二:创建示例工作负载 登录CCE控制台,单击集群名称进入集群。
性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VPC路由网络受限于VPC路由表条目配额的限制,建议集群规模为1000节点及以下。 容器IP地址管理 VPC网络模型根据如下规则分配容器IP:
性能要求较高:由于没有额外的隧道封装,相比于容器隧道网络模式,VPC网络模型集群的容器网络性能接近于VPC网络性能,所以适用于对性能要求较高的业务场景,比如:AI计算、大数据计算等。 中小规模组网:由于VPC路由网络受限于VPC路由表条目配额的限制,建议集群规模为1000节点及以下。 性能要求高:由于云原生网络2