检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“公共资源池” 公共资源池有CPU或GPU两种规格。如需使用,需联系管理员创建公共资源池。 “专属资源池” 您可以在资源池规格中选择对应的规格进行使用。 “模型来源” 根据您的实际情况选择“自定义模型”或者“订阅模型”。 “选择模型及版本” 选择状态“正常”的模型及版本。 “输入数据目录位置”
ma_container_gpu_mem_copy_util 表示内存带宽利用率。以英伟达GP Vnt1为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 百分比(Percent) 0~100% NA NA NA GPU编码器利用率
使用流程 资源开通 由于Server为一台裸金属服务器,因此需要先购买资源后才能使用。 首先请联系客户经理确认Server资源方案,部分规格为受限规格,因此需要申请开通您所需的资源规格。 Server所需资源可能会超出华为云默认提供的资源配额(如ECS、EIP、SFS),因此需要提交工单提升资源配额。
资源占用情况 表1 参数说明 参数 说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage 内存使用率。 npuMemUsage npu内存使用率。 npuUtil npu使用情况。 如何判断训练作业资源利用率高低
ma_container_gpu_mem_copy_util 表示内存带宽利用率。以GP Vnt1为例,其最大内存带宽为900 GB/sec,如果当前的内存带宽为450 GB/sec,则内存带宽利用率为50%。 百分比(Percent) 0~100% NA NA NA GPU编码器利用率
业务内存不正常。 请检查推理代码是否存在内存溢出或者内存泄漏的问题。 模型运行异常。 请检查您的模型是否能正常运行。例如模型依赖的资源是否故障,需要排查推理日志。 实例pod数量异常 。 如果您曾经找过运维人员删除过异常的实例pod,事件中可能会出现告警“服务异常,不正常的实例
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《购买弹性云服务器》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通过打通
监控周期 cpu_usage CPU使用率 该指标用于统计ModelArts用户服务的CPU使用率。 单位:百分比。 ≥ 0% ModelArts模型负载 1分钟 mem_usage 内存使用率 该指标用于统计ModelArts用户服务的内存使用率。 单位:百分比。 ≥ 0% ModelArts模型负载
运行指标,可选值如下: cpuUsage(CPU使用率)、memUsage(物理内存使用率)、gpuUtil(GPU使用率)、gpuMemUsage(显存使用率)、npuUtil(NPU使用率)、npuMemUsage(NPU显存使用率)。 value Array of numbers
Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练:
信息。 表2 基础配置参数说明 参数名称 说明 资源类型 裸金属服务器是一款兼具弹性云服务器和物理机性能的计算类服务器,为您和您的企业提供专属的云上物理服务器。 弹性云服务器是一种可随时自助获取、可弹性伸缩的云服务器,可帮助您打造可靠、安全、灵活、高效的应用环境,确保服务持久稳定运行,提升运维效率。
单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性公网IP用于多个Server服务器:一个VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server服务器均可以通过该E
WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 前提条件 在线服务部署时需选择“升级为WebSocket”。 在线
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。 查看资源池规格 在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量,并可以调整容器引擎空间大小。 图4 查看资源池规格(如果创建资源池时未设置容器引擎大小,则显示默认值) 查看资源池监控
“我的镜像”页面,执行刷新操作后可查看到对应的镜像信息。 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obsutil,请参见安装和配置OBS命令行工具。
String 运行指标,可选值如下: cpuUsage:CPU使用率 memUsage:物理内存使用率 gpuUtil:GPU使用率 gpuMemUsage:显存使用率 npuUtil:NPU使用率 npuMemUsage:NPU显存使用率 value Array of doubles 运行指标对应数值,1min统计一个平均值。
复制出的信息为“ur5468675/test_cli_model1”,则该资产的“repo_id”为“ur5468675/test_cli_model1”。 图1 复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI
ECS获取基础镜像 Step1 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1