detail 为了缓解这一问题,我们利用纯语言 GPT-4 或 ChatGPT 作为强大的教师(两者都只接受文本作为输入),来创建涉及视觉内容的指令遵循数据。具体来说,为了将图像编码为视觉特征以提示纯文本 GPT,我们使用了两类符号表示:
i)**图像描述(Captions)**通常从不同角度描述视觉场景; ii)**边框(Bounding Boxes)**通常定位场景中的物体,每个框编码物体概念及其空间位置。表 14 顶部图块就是一个例子。
158K 语言图像指令遵循样本