盘古大模型 PANGULARGEMODELS-打造短视频营销文案创作助手:准备训练数据
准备训练数据
本场景不涉及自监督训练,无需准备自监督数据。
微调数据来源:
- 来源一:真实业务场景数据。
- 来源二:基于大模型的数据泛化。基于目标场任务的分析,通过人工标注部分数据样例,然后利用大模型(如盘古提供的任意规格的基础功能模型)采用self-instruct等方式,泛化出更多的业务场景数据。
- 方法一:在大模型输入的Prompt中包含“人设赋予”、“任务描述”、“任务具体要求”和“输出格式要求”等部分后,模型通常能够生成质量较高的数据。示例如下:
大模型输入:
你是一名短视频的知名带货博主,你的日常工作在短视频平台上进行各类产品的带货直播。你很擅长根据一段简要的产品介绍,创作出高质量的带货口播。 请根据如下产品介绍,生成一篇字数不超过200个字的高质量带货口播,产品介绍如下: ``` %s ``` 生成的内容必须满足以下要求: 1.生成内容的字数要求为200个字左右; 2.生成的内容必须生动有趣、丰富多样; 3.生成内容的语言风格必须口语化; 4.生成的内容开头必须能足够引起观众的兴趣,比如可以采取对目标观众反问、对比等方式; 5.生成的内容结尾必须要引导观众购买; 6.生成的内容必须紧扣产品本身,突出产品的特点,不能出现不相关的内容; 7.生成的内容必须完整,必须涵盖产品介绍中的每个关键点,不能丢失任何有价值的细节; 8.生成的内容必须符合客观事实,不能存在事实性错误; 9.生成的内容必须语言通顺; 10.生成的内容中不能出现“带货口播”等这一类字样; 输出格式:口播如下: xxx
- 方法二:产品介绍可以来源于真实的产品信息,也可以通过in-context-learning方式生成。示例如下:
- 方法一:在大模型输入的Prompt中包含“人设赋予”、“任务描述”、“任务具体要求”和“输出格式要求”等部分后,模型通常能够生成质量较高的数据。示例如下:
微调数据要求:
- 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下:
{"context":"轻便折叠户外椅,舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "嗨!亲爱的朋友们,你们是不是也常常遇到户外活动时找不到合适的座椅,坐地上又硬又不舒服?那么,我今天要介绍的产品就能解决你的困扰!它就是轻便折叠户外椅,让你的户外时光更加舒适随行!\n\n这款户外椅不仅轻巧便携,折叠起来只有一只手的大小,非常方便携带!无论是野餐、露营还是旅行,它都能轻松满足你的需要,为你的舒适提供保障!\n\n它采用高质量的材料制造而成,坚固耐用,可以承受220磅的重量,稳如泰山,安全可靠。而且,它的面料柔软舒适,采用透气网布设计,不仅排汗透气,而且可根据你的身体曲线自主调节,提供全方位的支撑和舒适度。\n\n亲爱的朋友们,快来选购这款轻便折叠户外椅,让你的户外生活更加舒适、随心随行!赶快单击下方链接,实现你的户外梦想!"} {"context":"产品:毛绒玩具\n特点:柔软可爱,陪伴成长,给孩子无限温暖的拥抱。\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "小伙伴们,我来给你们介绍一款超可爱的毛绒玩具!它柔软可爱,真的是陪伴成长、给孩子无限温暖的拥抱!\n\n它是宝宝的小伙伴,不离不弃地陪伴着他们的成长。而且这款毛绒玩每一个细节都呈现出了无限的童真和天真,真的是太可爱了!\n\n除了可爱外,这款毛绒玩具还有一个很重要的功能,它能给孩子带来无限温暖的拥抱。当孩子感到孤独或者失落时,它就像一个亲密的好友一样,安慰着他们的心灵。就像你给亲人一个紧紧的拥抱,让他们感受到你的爱一样,这款毛绒玩具也能给孩子带来同样的温暖和关怀。\n\n所以,我相信这款毛绒玩具一定能成为你宝贝的最爱,给他们带来无尽的欢乐和温暖。现在就单击下方链接,购买一只给宝贝一个最温暖的拥抱吧!"}
- 数据量级要求:本场景使用了5000条数据进行微调。
说明:类似场景需要的微调数据量视具体情况而定。从经验上来说,如果实际场景相对单一,比如只需要构建短视频口播文案生成的场景,则使用5000条数据即可;如果场景中涵盖多个细分场景,比如短视频口播生成、小红书风格文案生成等等,则每个子场景各需要准备至少5000条数据。
- 数据质量要求:
- 保证微调数据中的输入(context字段)不重复,否则会造成模型效果不佳。
- 保证微调数据内容干净,不包含异常字符。
- 保证输出(target字段)内容符合业务场景需求。例如,短视频口播场景要求文风可以引起观众兴趣、不丢失产品特点且可以引导观众购买。
微调数据清洗:
下表中列举了本场景常见的数据质量问题以及相应的清洗策略,供您参考:
数据问题 |
清洗步骤与手段 |
清洗前 |
清洗后 |
---|---|---|---|
问题一:数据中存在超链接、异常符号等。 |
删除数据中的异常字符。 |
{"context":"轻便折叠户外椅,舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": " ????嗨!亲爱的朋友们,你们是不是也常常遇到户外活动时找不到合适的座椅,坐地上又硬又不舒服?那么,我今天要介绍的产品就能解决你的困扰!它就是轻便折叠户外椅,让你的户外时光更加舒适随行!\n\n这款户外椅不仅轻巧便携,折叠起来只有一只手的大小,非常方便携带!无论是野餐、露营还是旅行,它都能轻松满足你的需要,为你的舒适提供保障!\n\n它采用高质量的材料制造而成,坚固耐用,可以承受220磅的重量,稳如泰山,安全可靠。而且,它的面料柔软舒适,采用透气网布设计,不仅排汗透气,而且可根据你的身体曲线自主调节,提供全方位的支撑和舒适度。\n\n亲爱的朋友们,快来选购这款轻便折叠户外椅,让你的户外生活更加舒适、随心随行!赶快单击下方链接,实现你的户外梦想!"} |
{"context":"轻便折叠户外椅,舒适随行\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": "嗨!亲爱的朋友们,你们是不是也常常遇到户外活动时找不到合适的座椅,坐地上又硬又不舒服?那么,我今天要介绍的产品就能解决你的困扰!它就是轻便折叠户外椅,让你的户外时光更加舒适随行!\n\n这款户外椅不仅轻巧便携,折叠起来只有一只手的大小,非常方便携带!无论是野餐、露营还是旅行,它都能轻松满足你的需要,为你的舒适提供保障!\n\n它采用高质量的材料制造而成,坚固耐用,可以承受220磅的重量,稳如泰山,安全可靠。而且,它的面料柔软舒适,采用透气网布设计,不仅排汗透气,而且可根据你的身体曲线自主调节,提供全方位的支撑和舒适度。\n\n亲爱的朋友们,快来选购这款轻便折叠户外椅,让你的户外生活更加舒适、随心随行!赶快单击下方链接,实现你的户外梦想!"} |
问题二: 存在未转义的字符。 |
进行转义。 |
{"context":"舒适随行的"骆驼牌"轻便折叠户外椅,\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": …} |
{"context":"舒适随行的\"骆驼牌\"轻便折叠户外椅\n请根据以上的内容和要求扩写一篇带货口播文案,注意:1.开头引起观众的兴趣2.扩写要保留以上内容全部信息,结合观众需求突出商品特点3.在结尾引导观众行动。要求口语化。需要300字。", "target": …} |
问题三:存在重复数据。 |
删除重复数据。 |
略 |
略 |