LLaVa 演化[4]

LLaVa

GPT-assisted Visual Instruction Data Generation [1]

detail 为了缓解这一问题，我们利用纯语言 GPT-4 或 ChatGPT 作为强大的教师（两者都只接受文本作为输入），来创建涉及视觉内容的指令遵循数据。具体来说，为了将图像编码为视觉特征以提示纯文本 GPT，我们使用了两类符号表示：

i）**图像描述（Captions）**通常从不同角度描述视觉场景； ii）**边框（Bounding Boxes）**通常定位场景中的物体，每个框编码物体概念及其空间位置。表 14 顶部图块就是一个例子。
158K 语言图像指令遵循样本
- 58K 对话样本
- 23K 详细描述样本
- 77K 复杂推理样本

LLaVA模型结构 [3]

LLaVA两阶段训练 [3]

阶段一：特征对齐预训练。这个阶段冻结Vision Encoder和LLM模型的权重参数，只训练插值层Projection W的权重。
阶段二：端到端训练。这个阶段，依然冻结Vision Encoder的权重，训练过程中同时更新插值层Projection W和LLM语言模型的权重

LLaVa [2][ELmo]

摘要