正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #训练原始数据集 父主题: 准备工作
状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 父主题: 准备工作
train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练原始数据文件 父主题: 准备工作
训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 父主题: 准备工作
训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 父主题: 准备工作
datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件 父主题: 预训练
训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 父主题: 准备工作
状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件 父主题: 准备工作
数据处理完后,在/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/目录下生成转换后的数据文件。 父主题: SFT微调训练
datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件 父主题: 预训练
json 文件。关于数据集文件的格式及配置,请参考 data/README_zh.md 的内容。 vim dataset_info.json 父主题: 准备工作
注意:多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。 父主题: 准备工作
datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件 父主题: 预训练
微调数据文件 多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。 父主题: 准备工作
"alpaca_gpt4_data": { "file_name": "alpaca_gpt4_data.json" }, 样例截图: 父主题: 准备工作
S桶中的数据下载至SFS Turbo中。注意:需要使用用户账号中的AK和SK进行签名验证,确保通过授权的账号才能访问指定的OBS资源。 父主题: 准备工作
PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。 父主题: 训练脚本说明
datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件 父主题: 预训练