检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品变更公告 网络调整公告 预测API的域名停用公告
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
python包的下载源。 pip_packages 否 List conda虚拟环境需要使用的python包,如tensorflow,pillow等。 conda_packages 否 List conda虚拟环境需要使用的conda包,如指定python版本。 表4 params结构
Clone仓库成功 异常处理 Clone仓库失败。可能是网络原因问题。可以在JupyterLab的Terminal中通过执行git clone https://github.com/jupyterlab/extension-examples.git测试网络连通情况。 图6 Clone仓库失败 如
Step6 准备镜像 创建ECS。 参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,并在控制台发送后续步骤中的远程命令。 注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。
Lite Server资源配置 Lite Server资源配置流程 配置Lite Server网络 配置Lite Server存储 配置Lite Server软件环境
Lite Cluster资源配置 Lite Cluster资源配置流程 配置Lite Cluster网络 配置kubectl工具 配置Lite Cluster存储 (可选)配置驱动 (可选)配置镜像预热
GPU训练业务迁移至昇腾的通用指导 训练业务迁移到昇腾设备场景介绍 训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优 训练网络迁移总结 父主题: GPU业务迁移至昇腾训练推理
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.912)
NPU RoCE网络 NPU RoCE网络上行速率 ma_container_npu_roce_tx_rate_bytes_per_second 容器所使用的NPU网络模块上行速率 字节/秒(Bytes/Second) ≥0 NA NA NA NPU RoCE网络下行速率 ma_
常见错误原因和解决方法 显存溢出错误 网卡名称错误 联网下载SimSun.ttf时可能会遇到网络问题 在运行finetune_ds.sh 时遇到报错 父主题: Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.912)
800训练服务器HCCN Tool Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考主要介绍集群网络工具hccn_tool对外接口说明,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助您
dtype=np.float32) image = np.frombuffer(image.tobytes(), np.float32) # 保存网络输入为二进制文件 image.tofile("input_data.bin") 将基准模型的输出保存到文本文件。 本例中输出节点名称为ou
操作系统镜像类型。 private:私有镜像。 表12 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表13 PoolDriver 参数 参数类型 描述 gpuVersion
点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。 高 不可恢复。 修改网络安全组 可能影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。 中 改回原有内容。 网络 修改/删除集群关联网段。 影响ModelArts侧基本功能,包括但不限于节点管理、扩缩容、驱动升级等。
欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。训练中获得的生成器网络可用于生成与输入图片相似的图片,用作新的数据集参与训练。基于Gan网络生成新的数据集不会生成相应的标签。图像生成过程不会改动原始数据,新生成的图片或xml文件保存在指定的输出路径下。
操作系统镜像类型。 private:私有镜像。 表12 network 参数 参数类型 描述 name String 网络名称;用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表13 PoolDriver 参数 参数类型 描述 gpuVersion
install.sh modellink 在执行 install.sh 安装命令时,需要确认机器是否已连通网络。若无法连通网络或无法git clone下载代码,用户则需要找到已连通网络的机器(本章节以Linux系统机器为例)将下载完成的源码放置代码目录:AscendFactory/third-party下,命令如下
url_0" 。 train_url = args_opt.train_url # 初始定义的网络、损失函数及优化器,详细请参见MindSpore保存与加载。 # 1.初始定义的网络,以“ResNet50”为例。详细请参见ResNet50。 net = resnet50(args_opt