检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“
-> 云服务” 或 “云客户端 -> 云服务”。 推理业务时延要求,客户端到云服务端到端可接受时延。 例如:当前是“客户端 -> 云服务”模式,客户端请求应答可接受的最长时延为2秒。 - 模型参数规模,是否涉及分布式推理 10B/100B,单机多卡推理。 - 能否提供实际模型、网络验证的代码和数据等信息
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
在ModelArts Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象 在Notebook执行兼容gpu的脚本时报错不兼容,但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'
在监控区域,您可以通过选择时长,查看对应时间的监控数据。 当前支持查看近1小时、近3小时和近12小时的监控数据,查看更长时间范围监控曲线,请在监控视图中单击进入大图模式查看。 父主题: 管理同步在线服务
USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子(全量prefill阶段的flash-attention)是否使用高精度模式;默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,会影响首token时延增加5%~10%。
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
MoXing如何访问文件夹并使用get_size读取文件夹大小? 问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS
aom:metric:get aom:metric:list aom:alarm:list 实例的启动、停止、创建、删除、更新等依赖的权限。 建议配置。 仅在严格授权模式开启后,需要显式配置左侧权限。 动态挂载存储配置 ModelArts modelarts:notebook:listMountedStorages
使用ModelArts VSCode插件调试训练ResNet50图像分类模型 应用场景 Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。
n。 您也可以通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求,具体可参见用户AK-SK认证模式。 图3 参数填写 在Body页签,根据模型的输入参数不同,可分为2种类型:文件输入、文本输入。 文件输入 选择“form-data”。在
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
减少显存占用,以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式;默认值为0表示不开启。针对Qwen2-7B模型和Qwen2-57b模型,必须开启此配置,否则精度会异常;其他模型不建议开启,因为性能会有损失。
项即可。 可以单击“查看权限列表”,查看普通用户权限。 “新增委托 > 权限配置 > 自定义” 如用户有精细化权限管理的需求,可使用自定义模式灵活按需配置ModelArts创建的委托权限。可以根据实际需要在权限列表中勾选要配置的权限。 然后勾选“我已经详细阅读并同意《ModelA