检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU训练业务迁移至昇腾的通用指导 训练业务迁移到昇腾设备场景介绍 训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优 训练网络迁移总结 父主题: GPU业务迁移至昇腾训练推理
NPU RoCE网络 NPU RoCE网络上行速率 ma_container_npu_roce_tx_rate_bytes_per_second 容器所使用的NPU网络模块上行速率。 字节/秒(Bytes/Second) ≥0 NA NA NA NPU RoCE网络下行速率 ma_
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
服务实例所在的虚拟私有云ID,服务自定义网络配置时返回。 subnet_network_id String 服务实例所在的子网的网络ID,服务自定义网络配置时返回。 security_group_id String 服务实例所在的安全组,服务自定义网络配置时返回。 status String
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
800训练服务器HCCN Tool Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助您
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 高 不可恢复。 修改网络安全组 可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 中 改回原有内容。 网络 修改/删除集群关联网段。 影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。
数生效。 否 str subnet_network_id 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 否 str security_group_id 安全组,
Integer 指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion
dtype=np.float32) image = np.frombuffer(image.tobytes(), np.float32) # 保存网络输入为二进制文件 image.tofile("input_data.bin") 将基准模型的输出保存到文本文件。 本例中输出节点名称为ou
Integer 指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt
Integer 指定可用区扩容时,指定可用区的节点数。 表11 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表12 PoolDriver 参数 参数类型 描述 gpuVersion
如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。 父主题: 产品变更公告
install.sh modellink 在执行 install.sh 安装命令时,需要确认机器是否已连通网络。若无法连通网络或无法git clone下载代码,用户则需要找到已连通网络的机器(本章节以Linux系统机器为例)将下载完成的源码放置代码目录:AscendFactory/third-party下,命令如下
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt