检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
NPU RoCE网络 NPU RoCE网络上行速率 ma_container_npu_roce_tx_rate_bytes_per_second 容器所使用的NPU网络模块上行速率。 字节/秒(Bytes/Second) ≥0 NA NA NA NPU RoCE网络下行速率 ma_
800训练服务器HCCN Tool Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助您
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 高 不可恢复。 修改网络安全组 可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 中 改回原有内容。 网络 修改/删除集群关联网段。 影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。
Integer 指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion
dtype=np.float32) image = np.frombuffer(image.tobytes(), np.float32) # 保存网络输入为二进制文件 image.tofile("input_data.bin") 将基准模型的输出保存到文本文件。 本例中输出节点名称为ou
Integer 指定可用区扩容时,指定可用区的节点数。 表10 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表11 PoolDriver 参数 参数类型 描述 gpuVersion
欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。训练中获得的生成器网络可用于生成与输入图片相似的图片,用作新的数据集参与训练。基于Gan网络生成新的数据集不会生成相应的标签。图像生成过程不会改动原始数据,新生成的图片或xml文件保存在指定的输出路径下。
Integer 指定可用区扩容时,指定可用区的节点数。 表11 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表12 PoolDriver 参数 参数类型 描述 gpuVersion
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt
如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。 父主题: 产品变更公告
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt
scripts/install.sh modellink 在执行 install.sh 安装命令时,需要确认机器是否已连通网络。若无法连通网络或无法git clone下载代码,用户则需要找到已连通网络的机器(本章节以Linux系统机器为例)将下载完成的源码放置代码目录:AscendFactory/third-party下,命令如下