检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可
享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景) 用户如果购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook 父主题: 主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905)
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.909)
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.907)
使用WebSocket协议的方式访问在线服务:WebSocket使得客户端和服务器之间的数据交换变得更加简单,允许服务端主动向客户端推送数据。在WebSocket API中,浏览器和服务器只需要完成一次握手,两者之间就可以建立持久性的连接,并进行双向数据传输。 使用Server-Sent Events协议的方式访问在线服务:Server-Sent
准备工作 准备环境 准备代码 准备数据 准备镜像环境 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.909)
单机多卡 准备镜像 上传数据和算法至SFS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 父主题: 调试与训练
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.908)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.909)
权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,也不需要查看其他用户的Notebook实例。 图1 账号关系示意图 配置管理员权限 管理员账号需要拥有ModelArts专属资源池的完全控制权限,以及
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.912)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.910)
准备工作 准备资源 准备数据 准备权重 准备代码 准备镜像 准备Notebook(可选) 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.908)
例如:ResNet-50、YOLOv5模型使用FP16。BertLarge使用FP32。 - 模型变更频率 模型变更场景如下: 数据增量,模型算子未变更。 数据增量,模型算子变化,例如: 网络结构变化。 AI框架版本升级,使用了新版本算子。 例如:每半年对模型进行一次变更,变更的内容包含模型结构,并升级AI框架。
Workflow高阶能力 在Workflow中使用大数据能力(DLI/MRS) 在Workflow中指定仅运行部分节点 父主题: 开发Workflow命令参考
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.910)
方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits
准备工作 准备环境 准备代码 准备数据 准备镜像 父主题: 主流开源大模型基于DevServer适配PyTorch NPU训练指导(6.3.905)