检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 如果没有软
ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 MODEL_NAME llama2-70b 对应模型名称。
ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 MODEL_NAME llama2-13b 对应模型名称。
LoRA训练。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E
service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置
分析错误时:训练镜像先看日志,推理镜像先看API的返回。 可以通过命令查看容器输出到stdout的所有日志: docker logs -f 39c9ceedb1f6 一般在做推理镜像时,部分日志是直接存储在容器内部的,所以需要进入容器看日志。注意:重点对应日志中是否有ERROR(包括,容器启动时、API执行时)。
ORIGINAL_HF_WEIGHT /home/ma-user/work/model/llama-2-13b-chat-hf 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 SHELL_FOLDER $(dirname $(readlink
ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 SHELL_FOLDER $(dirname $(readlink
Snt9B单机。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-AIGC-6
k详情页中修改密钥对。 注意: 创建好的密钥对,请下载并妥善保存,使用本地IDE远程连接云上Notebook开发环境时,需要用到密钥对进行鉴权认证。 “远程访问白名单” 可选,开启“SSH远程开发”功能后,可以设置此参数。 设置为允许远程接入访问这个Notebook的IP地址(例
Snt9B单机单卡。 表1 环境要求 名称 版本 driver 23.0.6 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.907-xxx.zip软件包中的AscendCloud-AIGC-6
Snt9B硬件,完成SDXL Finetune训练。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 如果没有软
本次训练作业使用的训练规格。 “输入-输入路径” 本次训练中,输入数据的OBS路径。 “输入-参数名称” 算法代码中,输入路径指代的参数。 “输入-获取方式” 本次训练作业的输入采用的获取方式。 “输入-本地路径(训练参数值)” 训练启动后,ModelArts将OBS路径中的数据下载至后台容器,本地路径指M
rch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch
支持图像处理,所以无法展示缩略图。 解决方案 以Chrome浏览器为例,“F12”打开浏览器Console,锁定该图片,获取图片链接并复制。 图1 F12获取图片链接 在新的浏览器页面输入该链接,会出现提示“您的连接不是私密连接”,在该页面单击“高级”,然后选择继续前往目标链接页面。
rch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch Profiler接口可全面采集PyTorch训练场景下的性能数据,主要包括PyTorch
yaml”文件。 “config.yaml”文件用于配置pod,代码示例如下。代码中的“xxxx_train.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname