检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
扩展插件市场:提供了多种类型的插件,用于管理集群的扩展功能,以支持选择性扩展满足特性需求的功能。 云容器引擎学习路径 您可以借助云容器引擎成长地图,快速了解产品,由浅入深学习使用和运维CCE。
260INT4 TOPS 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。 CCE Standard集群 推理加速型 Pi1 NVIDIA P4(GPU直通) 2560 5.5TFLOPS 单精度浮点计算 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。
U节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。 nvidia-smi 可以看到该机器上存在1张卡GPU0。本文以GPU0为例,定位使用这张卡的Pod。 根据节点IP(即192.168.0.106)和设备号(即第0张卡)定位使用了该卡的Pod。
遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
查看kubectl的连接信息,并在弹出页面中下载配置文件。 配置kubectl。 登录到您的客户端机器,复制1.b中下载的配置文件(kubeconfig.json)到您客户端机器的/home目录下。 配置kubectl认证文件。 cd /home mkdir -p $HOME/
ort容器可以终止时,该类型的Pod会被终止。 如果Pod进程因使用超过预先设定的限制值而非Node资源紧张情况,系统倾向于在其原来所在的机器上重启该容器。 如果资源充足,可将QoS Pod类型均设置为Guaranteed。用计算资源换业务性能和稳定性,减少排查问题时间和成本。
级高的业务SLO。 资源分级管控为业务潮汐明显的在线业务间混部、在线和离线业务混部奠定了基础。解决了应用预留资源较多、资源无法分时复用的问题。 在线作业与离线作业 从业务是否一直在线的角度看,其类型可分为在线作业和离线作业。 在线作业:一般运行时间长,服务流量呈周期性,资源存在潮
进入刚刚创建的OBS桶页面,创建文件夹data和img,并将basicClass.py上传。 进入data文件夹,将刚刚下载的四个gz文件上传。 机器学习范例 本篇范例采用tensorflow官网的ml example,可参考https://www.tensorflow.org/tutor
统软件,以及具体版本号。 本例不需要使用任何依赖包。 部署形态 周边配置 MongoDB:本例中MongoDB和Tomcat应用是在同一台机器中部署。因此对应配置可以固定,不需要将配置提取出来。 应用需要对接哪些外部服务,例如数据库,文件存储等等。 应用部署在虚拟机上时,该类配置
务器进行处理。开启会话保持后,负载均衡会把来自同一客户端的访问请求持续分发到同一台后端云服务器上进行处理。 例如在大多数需要用户身份认证的在线系统中,一个用户需要与服务器实现多次交互才能完成一次会话。由于多次交互过程中存在连续性,如果不配置会话保持,负载均衡可能会将部分请求分配至
创建虚拟接口后您还需要配置用户侧设备,云上放通安全组规则,允许云上云下访问。 连通性测试 使用traceroute命令测试IDC机器和云上容器间是否可以互通: 如果路由正常表明专线有回程路由。 如果出现IDC机器路由没有到达专线的云上网关等情况,请排查专线两端的路由设置是否正常。 如果traceroute不通
满足于CPU和Memory,开发者需要应用自身的业务指标,或者是一些接入层的监控信息,例如:Load Balancer的QPS、网站的实时在线人数等。社区经过思考之后,定义了一套标准的Metrics API,通过聚合API对外提供服务。 metrics.k8s.io: 主要提供P
uid}/{容器id}/cpuset.preferred_cpus {pod uid}为Pod UID,可在已通过kubectl连接集群的机器上使用以下命令获取: kubectl get po {pod name} -n {namespace} -ojsonpath='{.metadata
维或者开发人员进行数据库的迁移,详情请参见跨云数据库在线迁移。完成迁移后,可参考数据库更新适配进行对接。 存储迁移 若您的集群对接了对象存储服务,且需同步搬迁至上云,可以使用对象存储迁移服务 OMS,帮助您将对象存储中的数据在线迁移至对象存储服务。其他存储类型暂未提供官方工具支持。
已停止”状态下,驱动程序Pod不会使用任何计算或内存资源。 图1 提交机制的工作原理 在CCE上运行SparkPi例子 在执行Spark的机器上安装kubectl,详情请参见通过kubectl连接集群。 kubectl安装成功后,执行如下命令授予集群权限。 # 创建服务账号 kubectl
方案一:在命令中指定不同的kubeconfig配置文件 登录安装kubectl的虚拟机。 分别下载2个集群的kubeconfig文件到kubectl客户端机器的“/home”目录下,本文中使用以下名称作为示例。 集群名称 kubeconfig配置文件名称 集群A kubeconfig-a.json
为模拟实际业务场景,以服务网格的经典案例Bookinfo应用为例,介绍灰度发布和蓝绿发布的完整流程。 Bookinfo应用分析 Bookinfo是一个模仿在线书店的应用,页面上会显示一本书籍的描述,书籍的细节(如页数),以及关于书籍的一些评论。 Bookinfo应用由四个单独的服务构成,几个服务
SDK概述 本文介绍了CCE服务提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。
修复ioaware插件在某些极端场景下结果不符合预期的问题 支持混合集群 1.2.3 v1.15 v1.17 v1.19 修复因为精度不够引发的训练任务OOM的问题 修复CCE v1.15以上版本GPU调度的问题,暂不支持任务分发时的CCE版本滚动升级 修复特定场景下队列状态不明的问题
kube-system 记录下这个token值,就是要搜集的bearer_token信息。 配置bearer_token 信息。 登录到Prometheus所在机器,进入Prometheus的安装目录,将目标集群的token信息保存在文件中。 配置Prometheus监控job。 示例job监控的是容