检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir} # ${work_dir}:/home/ma-user/ws 宿主机代码和数据目录 #例如:
不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 步骤四:获取代码并上传 上传推理代码AscendCloud-CV-6.3.909-xxx.zip到宿主机的工作目录中,包获取路径请参见表2。 上传代码到宿主机时使用的是root用户,此处需要在容器中执行如下命令统一文件属主为ma-user用户。
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.910)
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS
创建本地模型,在开发环境Notebook调试完成后再部署到推理服务上。 只支持使用ModelArts Notebook部署本地服务。 示例代码 在ModelArts Notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。
(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 微调训练 SFT全参微调 介绍如何进行SFT全参微调,包括训练数据处理、超参配置、创建训练任务及性能查看。
模型类型 应用场景 支持语言 GLM-4 文本生成 对话问答、长文本推理、代码生成 中文、英文 ChatGLM3 文本生成 对话问答、数学推理、代码生成 中文、英文 百川2 文本生成 对话问答、数学推理、代码生成、翻译 中文、英文 Llama2 文本生成 对话问答、智能创作、文本摘要
修改目录权限,上传代码和数据到宿主机时使用的是root用户,如用ma-user用户训练,此处需要执行如下命令统一文件权限。 #统一文件权限 chmod -R 777 ${work_dir} # ${work_dir}:/home/ma-user/ws 宿主机代码和数据目录 #例如:
sort=trending&search=QWEN+AWQ 方式二:使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户,
sort=trending&search=QWEN+AWQ 方式二:使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、使用该量化工具,需要切换conda环境,运行以下命令。
ma3系列、Qwen2系列的NLP模型。 安装AscendModelNano AscendModelNano是FASP剪枝工具,适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/ModelNano目录下。 AscendModelNano工具需要安装,执行命令如下。
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
当需要从训练中断的位置接续训练,只需要加载checkpoint,并用checkpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练 在ModelArts S
桶。 准备数据 准备训练数据,可以用本案使用的数据集,也可以使用自己准备的数据集。 准备权重 准备所需的权重文件。 准备代码 准备AscendSpeed训练代码。 准备镜像 准备训练模型适用的容器镜像。 准备Notebook 本案例需要创建一个Notebook,以便能够通过它访问SFS
克隆ModelArts Ascend代码库。 新建Terminal,执行下述命令将对应的repo克隆到Notebook实例。 git clone https://gitee.com/ModelArts/modelarts-ascend.git 图1 下载示例代码 昇腾迁移案例在“~/wor
supported wheel on this platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。
sort=trending&search=QWEN+AWQ 方式二:使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户运
sort=trending&search=QWEN+AWQ 方式二:使用AutoAWQ量化工具进行量化。 AutoAWQ量化工具的适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/AutoAWQ目录下。 1、在容器中使用ma-user用户,