多模态 LLM
#2026/01/01 #ai
- 当语言模型可“看到”图像并回答相关问题时,其效用将显著增强。
- 这种能够处理文本与图像(每种数据类型称为一种 模态 )的模型,即被称为 多模态 (multimodal)模型,如图所示。

图 :能处理多种数据模态(如图像、音频、视频或传感器数据)的模型称为多模态模型。模型接收某种模态作为输入,但不一定能生成对应模态的输出
我们已见证 LLM 展现出包括泛化推理、数学运算及语言理解在内的涌现能力。
事实上,语言并非孤立存在的,肢体动作、面部表情、语调变化等非语言要素,均能增强口语表达。
这一原理同样适用于 LLM。若赋予其理解多模态信息的能力,其功能边界将得以拓展,从而能够解决更多新型问题。
→ 又比如最近经常提的 世界模型
目录
视觉 Transformer
详情参考 0. 多模态 LLM
多模态嵌入模型
让文本生成模型具备多模态能力
小结
本章系统探讨了如何让文本模型具备视觉理解能力,主要涵盖以下三大技术路径:
1. 视觉Transformer (ViT)
- 将图像切分成小块(patches),像处理文字一样处理图片
- 为多模态模型提供了图像编码的基础能力
- 实现了从像素到数值表示的转换
2. 多模态嵌入模型 (CLIP)
- 核心创新:把图片和文字转换到同一个向量空间
- 训练方式:对比学习——让配对的图文相似,不配对的图文远离
- 典型应用:
- 零样本分类(无需训练直接分类)
- 跨模态检索(文字搜图片、图片搜文字)
- 驱动AI绘画工具(如Stable Diffusion)
3. 多模态文本生成 (BLIP-2)
- 设计思路:
- 在图像编码器和文本生成模型之间加入“翻译器“(Q-Former)
- 训练策略:
- 冻结两端(图像编码器和LLM)
- 只训练中间的Q-Former
- 实际能力:
- 图像描述生成
- 视觉问答(看图回答问题)
- 多轮对话(带图像的智能助手)
关键技术突破
通过这些技术,LLM实现了从“只会读文字“到“能看懂图片“的跨越,使得:
- 用户可以上传图片并提问
- 模型能结合视觉和文字信息进行推理
- 构建真正的多模态智能对话系统成为可能
技术意义
这些多模态技术连接了文本与视觉表示,揭示了LLM实现多模态能力的核心机制,为构建更智能、更通用的AI系统奠定了基础。
简单总结:本章讲述了如何给文本AI“装上眼睛“——通过ViT处理图片、CLIP对齐图文、BLIP-2生成描述,最终实现“看图说话“的多模态智能系统!