检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
出管道的具体信息。实例中“inputs”中“remote”下的“obs_url”表示从OBS桶中选择训练数据的OBS路径。实例中“outputs”中“remote”下的“obs_url”表示上传训练输出至指定OBS路径。 “spec”字段下的“flavor_id”表示训练作业所依
a、ShareGPT。也可以根据业务实际情况,使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 公开数据集下载地址: ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT
a、ShareGPT。也可以根据业务实际情况,使用generate_datasets.py脚本生成和业务数据分布接近的数据集。 公开数据集下载地址: ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT
的文本。 将jsonl格式的数据集文件上传到“华东二”区域的OBS桶中,创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。本文以“/maas-test/news/maas_demo_news.jsonl”OBS路径为例。 进入ModelArts Studio大模型即服务平台。
与分类不同,聚类分析数据对象,而不考虑已知的类标号(一般训练数据中不提供类标号)。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。对象的聚类是这样形成的,使得在一个聚类中的对象具有很高的相似性,而与其他聚类中的对象很不相似。 父主题: AI开发基础知识
在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图4 文本分类标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”,完成“未标注”列表的文本标注。
or: _pad() got an unexpected keyword argument 'padding_side' 解决方法: 1、下载最新的tokenization_chatglm.py,替换原来权重里的tokenization_chatglm.py。 https://huggingface
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
中创建.ipynb文件,并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径 obs_data_dir= "obs://<bucket_name>/data" # NoteBook存放数据路径
业。上传自定义算法前,请完成算法开发并上传至OBS桶。创建算法请参考使用预置框架创建算法。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在ModelArts的模型读取存储在OBS服务的数据,或者输出至OBS服务指定路径,输入和输出数据需要配置3个地方:
or: _pad() got an unexpected keyword argument 'padding_side' 解决方法: 1、下载最新的tokenization_chatglm.py,替换原来权重里的tokenization_chatglm.py。 https://huggingface
AK与SK是用户访问OBS时需要使用的密钥对,AK与SK是一一对应,且一个AK唯一对应一个用户。如提示不可用,可能是由于账号欠费或AK与SK不正确等原因。 解决方案 使用当前账号登录OBS管理控制台,确认当前账号是否能访问OBS。 是,请执行步骤2。 否,请执行步骤3。 如能访问OBS,单击右
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
训练的数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。若未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
se。 处理方法 获取一个OBS文件夹的大小: import moxing as mox mox.file.get_size('obs://bucket_name/sub_dir_0/sub_dir_1', recursive=True) 获取一个OBS文件的大小: import
or: _pad() got an unexpected keyword argument 'padding_side' 解决方法: 1、下载最新的tokenization_chatglm.py,替换原来权重里的tokenization_chatglm.py。 https://huggingface
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练