检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建DNS内网域名 新创建的在线服务对接的是专享版APIG,需要使用ModelArts推理的独立公网域名,即infer-modelarts-<regionId>.modelarts-infer.com。
PyTorch版reload ckpt PyTorch模型保存有两种方式。
图3 在超参或者环境变量中设置checkpoint和数据的挂载路径 训练存储加速的代码样例(PyTorch版reload ckpt) PyTorch模型保存有两种方式。
支持的模型列表和权重文件 本方案支持vLLM的v0.6.0版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
图1 训练输出设置 PyTorch版reload ckpt PyTorch模型保存有两种方式。
chatglm4-9b,更新transformers为4.41.2版本。 pip install transformers==4.41.2 falcon-11b,参考falcon-11B模型替换文件。 否,忽略此步骤,执行下一步。 如需其他配置参数,可参考表1按照实际需求修改。
支持的模型列表和权重文件 本方案支持vLLM的v0.6.3版本。不同vLLM版本支持的模型列表有差异,具体如表3所示。
saves/rm/llama3-8b/lora/tokenizer.json 问题6:训练过程中报依赖包tyro错误:"ModuleNotFoundError: No module named 'tyro'" 错误截图: 报错原因:未指定tyro依赖包版本,导致安装依赖为最新0.9.0版本导致与其他依赖冲突
saves/rm/llama3-8b/lora/tokenizer.json 问题6:训练过程中报依赖包tyro错误:"ModuleNotFoundError: No module named 'tyro'" 错误截图: 报错原因:未指定tyro依赖包版本,导致安装依赖为最新0.9.0版本导致与其他依赖冲突
saves/rm/llama3-8b/lora/tokenizer.json 问题6:训练过程中报"ModuleNotFoundError: No module named 'multipart'"报错: 截图如下: 解决措施:可更新python-multipart为0.0.12版本
本文档适配昇腾云ModelArts 6.3.911版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。
# 下载 buildkit 工具,注意使用的是0.15.1 arm64版本 wget https://github.com/moby/buildkit/releases/download/v0.15.1/buildkit-v0.15.1.linux-arm64.tar.gz #
# 下载 buildkit 工具,注意使用的是0.15.1 arm64版本 wget https://github.com/moby/buildkit/releases/download/v0.15.1/buildkit-v0.15.1.linux-arm64.tar.gz #
# 下载 buildkit 工具,注意使用的是0.15.1 arm64版本 wget https://github.com/moby/buildkit/releases/download/v0.15.1/buildkit-v0.15.1.linux-arm64.tar.gz #
约束限制 本文档适配昇腾云ModelArts 6.3.907版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。 镜像适配的Cann版本是cann_8.0.rc2。
pip list | grep torch #如果不是2.1.0版本,请重新安装 pip uninstall torch pip install torch==2.1.0 验证效果。 新开启一个终端,执行以下命令。
具体操作,请参考昇腾商用版资源下载指导。 数据集。 需要排查是否使用的训练数据集存在差异。 初始权重。 需要排查是否加载的初始权重有差异,建议加载相同的初始权重。 父主题: PyTorch迁移精度调优
约束限制 本文档适配昇腾云ModelArts 6.3.909版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite Cluster。 本文档中的CCE集群版本选择v1.27~1.28。
约束限制 本文档适配昇腾云ModelArts 6.3.908版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite DevServer。 镜像适配的Cann版本是cann_8.0.RC3。