检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装Docker。 以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。 curl -fsSL get.docker.com -o get-docker.sh sh
升级Lite Cluster资源池驱动 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。
见Step6 购买Cluster资源。 查看节点列表 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见Step6 购买Cluster资源。 需注意,更
弹性集群 Cluster”,进入“弹性集群 Cluster”页面,选择“Lite 资源池”页签。 在“Lite资源池”页签中,单击创建的Lite Cluster专属资源池,进入资源池详情页面。 图1 资源池详情-基本信息 单击基本信息列中对应的“CCE集群”,进入CCE集群详情页面,在“集群信息”找到“连接信息”。
使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。
规范。 FROM {已有镜像} USER root # 如果已存在 gid = 100 用户组,则删除 groupadd 命令。 RUN groupadd ma-group -g 100 # 如果已存在 uid = 1000 用户,则删除 useradd 命令。 RUN useradd
升级Lite Cluster资源池单个节点驱动 场景介绍 当Lite Cluster资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助Lite Cluster资源池升级节点GPU/Ascend驱动的能力。
(可选)配置镜像预热 Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。 操作步骤 在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池
如果在购买资源池时,没配置自定义驱动,默认驱动不满足业务要求,可通过驱动升级功能将驱动升级到指定版本。驱动升级功能介绍可参考升级Lite Cluster资源池驱动。 父主题: Lite Cluster资源配置
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
yaml创建pod。 kubectl apply -f config.yaml 检查pod启动情况,执行下述命令。如果显示“1/1 running”状态代表启动成功。 kubectl get pod -A 进入容器,{pod_name}替换为您的pod名字(get pod中显示的名
管理Lite Cluster资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
c-manager软件包。 步骤一:安装Docker 使用Docker官方脚本安装最新版Docker: curl https://get.docker.com | sh sudo systemctl --now enable docker 步骤二:安装NVIDIA容器工具集 设置仓库地址和GPG
单击右上角“登录指令”,获取登录访问指令。 以root用户登录ECS环境,输入登录指令。 图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。 登录SWR后,使用docker tag命令给上传镜像打标签。下面命令中的组织
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel
安装Docker。 以Linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。关于安装Docker的更多指导内容参见Docker官方文档。 curl -fsSL get.docker.com -o get-docker.sh sh
Step2 为用户配置云服务使用权限 主用户为子账号授予ModelArts、OBS等云服务的使用权限后,子账号才可以使用这些云服务。此步骤介绍如何为用户组中的所有子账号授予使用ModelArts、OBS、SWR等各类云服务的权限。 主用户在IAM服务的用户组列表页面,单击“授权”,进入到授权页面,为子账号配置权限。
新镜像。 安装Docker。如果docker images命令可以执行成功,表示Docker已安装,此步骤可跳过。 以linux x86_64架构的操作系统为例,获取Docker安装包。您可以使用以下指令安装Docker。 curl -fsSL get.docker.com -o
uid为1000的用户ma-user和gid为100的用户组ma-group。如果基础镜像中uid 1000或者gid 100已经被其他用户和用户组占用,需要将其对应的用户和用户组删除。如下Dockerfile文件已添加指定的用户和用户组,您直接使用即可。 用户只需要设置uid为
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc