
Modality Encoder模态编码器 对于图像,通常有四种可选编码器:NFNet-F6 (Brock等人,2021)、ViT (Dosovitskiy等人,2020)、CLIP ViT (Radford等人,2021)和Eva-CLIP ViT (Fang等人,2023)。
Input Projector输入投影器 输入投影器可以直接通过线性投影器或多层感知器(MLP)来实现,即交替使用几个线性投影器和非线性激活函数。 还有更复杂的实现,如交叉注意Cross-attention、Q-Former (Li et al., 2023c)或P-Former (Jian et al., 2023)。
| Input Projector输入投影器 | |
|---|---|
| Cross-attention | Flamingo, Owl, Qwen-VL |
| Q-Former | BLIP2, InstructBLIP, MiniGPT-4, MiniGPT-5 |
| MLP | CogVLM , LLaVa1.5 |
| Linear Project | LLaVa, PaLI-x, MiniGPT-v2 |
