论文
SELF-INSTRUCT
自动指令数据生成[1]

1)指令生成
2)识别指令是否代表分类任务
3)用输入优先或输出优先的方法生成实例
4)过滤低质量数据
- 实现步骤[3]
- 人工设计175个表示不同任务的指令,并且给每条数据都编写了(指令, 输入, 输出)/(指令, 输出),将这175条数据作为种子池。
- 使用模型生成新的指令;
- 对该模型生成的指令判断是否分类任务;
- 使用模型生成实例;
- 对上述模型生成的数据进行过滤和后处理;
- 将经过过滤和后处理的数据添加到种子池中;
- 一直重复上述2到6步直到种子池有足够多的数据;
参考
SELF-INSTRUCT
- 面向大模型微调的instruction指令自动化生成技术:SELF-INSTRUCT指令自动化生成框架工作介绍
- Stanford Alpaca v
stanford_alpaca generate_instruction git