检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
peft版本升级到0.12.0 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
peft版本升级到0.12.0 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
上传OBS文件 异常处理 提示文件上传失败,有以下三种常见场景。 异常场景1 图5 文件上传失败 可能原因: OBS路径没有设置为具体的文件路径,设置成了文件夹。 OBS中的文件设置了加密。请前往OBS控制台查看,确保该文件未加密。 OBS桶和Notebook不在同一个区域。请确保读取的OBS
规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,
zip unzip images.zip 接着修改fill50k.py文件,如果机器无法访问huggingface网站,则需要将脚本文件中下载地址替换为容器本地目录。 56 def _split_generators(self, dl_manager): 57
Face权重(可与tokenizer相同文件夹)时,对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendSpeed/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_HF
XY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包含,请重新设置,或者直接去掉相关环境变量。 方式一: 重新设置 export no_proxy=xxx export NO_PROXY=xxx 方式二: 删掉相关环境变量 unset
按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资源情况分析该任务是否支持设置“商品数量”,用户可以基于业务需要选择任务所需的资源卡数。
如果您持有多台到期日不同的专属资源池,可以将到期日统一设置到一个日期,便于日常管理和续费。 图2展示了用户将两个不同时间到期的资源,同时续费一个月,并设置“统一到期日”后的效果对比。 图2 统一到期日 更多关于统一到期日的规则请参见如何设置统一到期日。 父主题: 续费
otebook。 解决方法 请到专属资源池页面初始化开发环境。 进入“专属资源池”页面,单击目标资源池“操作”列的“更多 > 设置作业类型”。 在“设置作业类型”页面,勾选“开发环境”,单击“确定”。此时“开发环境”的状态为“环境初始化中”,等到状态为“已启用”,即可使用新购买的专属资源池。
--seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 微调数据集预处理参数说明 微
“指定用户”:表示仅特定用户可以查看及使用该资产。 “仅自己可见”:表示只有当前账号可以查看并使用该资产。 设置“时长限制”。 设置订阅者可以免费使用资产的时长,默认关闭,即无限期使用。如果打开时长限制,除了设置资产免费使用的时长,还可以设置到期后是否续订。 如果是更新已发布资产的版本。 “发布方式”选择“添加资产版本”。
Face权重时,对应的存放绝对或相对路径。请根据实际规划修改。 do_train true 指示脚本执行训练步骤,用来控制是否进行模型训练的。如果设置为true,则会进行模型训练;如果设置为false,则不会进行模型训练。 cutoff_len 4096 文本处理时的最大长度,此处为4096,用户可根据自己要求适配。
用户增加实例数量时,可以通过指定节点计费模式,为资源池新创建的节点设置不同于资源池的计费模式,例如用户可以在包周期的资源池中创建按需的节点。如果用户不指定该参数,创建的节点计费模式和资源池保持一致。 在“专属资源池扩缩容”页面,设置“资源配置 > 可用区”,可用区可选择随机分配和指定AZ。
--seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以
vsix文件拖动到远端Notebook中。 右键单击该文件,选择Install Extension VSIX。 方法二:设置远端默认安装的插件 按照VS Code中设置远端默认安装的插件配置,即会在连接远端时自动安装,减少等待时间。 方法三:VS Code官网排查方式https://code
选择续费时长,并根据需要设置自动续费次数,单击“开通”。 图2 开通自动续费 在续费管理页面修改自动续费 进入“费用中心 > 续费管理”页面。 选择需要修改自动续费的专属资源池,单击操作列“修改自动续费”。 设置续费方式,选择续费时长,并根据需要设置自动续费次数,单击“确认”。
--seq-length:要处理的最大seq length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以
引入MoXing Framework的相关说明 在引入MoXing模块后,Python的标准logging模块会被设置为INFO级别,并打印版本号信息。可以通过以下API重新设置logging的等级。 1 2 3 4 import logging from moxing.framework
zip unzip images.zip 接着修改fill50k.py文件,如果机器无法访问huggingface网站,则需要将脚本文件中下载地址替换为容器本地目录。 56 def _split_generators(self, dl_manager): 57