多模态表征学习 - 学习笔记
1.表征学习的定义、分类和发展趋势
1.1 表征学习的定义
表征学习的定义:表征学习(Representation Learning)是一种通过算法从数据中自动学习到有用特征的技术,其目的是将复杂的、高维的原始数据转化为机器学习能够高效处理的低维特征表示。表征学习对应的是经典机器学习中的“特征提取”模块,过往常常通过人工去提取特征,表征学习则将此过程自动化,通过机器学习算法处理。
表征学习的模型输入:原始数据,其中包含高维度特征,例如:图像、文字、音频、视频、图等结构化或非结构化的数据
表征学习输出:经过表征学习之后,提取出能被下游任务使用的低维特征。这里的特征可以是显式的也可以是隐式的。目前主流的技术路线是将表征层作为上游任务预训练,学习完成之后向下游任务传递隐式信息。模型的下游任务可以是分类、预测、生成式任务。
1.2 表征学习的分类
表征学习按照任务划分,可以划分为:
文字表征
- 核心:对文本进行表征,即自然语言符号信息表示成数字信息,方便下游任务处理
- 经典方法
- Word2Vec(Word Embedding)
- Bert(Deep Model)
视觉表征
- 核心:理解各种视觉图像数据(如照片、医学图像、文件扫描、视频流)等的语义
- 经典方法
- Vgg-16、 ResNet(CNN系)
- MAE、VIT(Transformer系)
音频表征
- 核心:从音频信号中提取对应的声音特征
- 经典方法
- Wav2Vec
- SimCLR
- MAE
图表征
- 核心:将图数据映射到向量空间,以保留图的结构特征和语义特征
- 经典方法
- GCN
- GAT
多模态表征
- 核心:旨在融合多种数据模态(如:文本、图像、音频、视频等)来提高模型的感知与理解能力,实现跨模态信息的交互与融合
- 经典方法
- 预训练:BEIT、MAE
- 语义对齐:BLIP、CLIP、BEIT等
- 大模型:GPT、Gemini等
1.3 表征学习的发展趋势
2018年以前:以CNN/RNN/DNN架构为主
- AlexNet 【图像】
- Vgg16 【图像】
- ResNet 【图像】
- Word2Vec 【文字】
- GCN 【图】
2018-2023: Transformer架构逐渐成为主流框架、
- BERT 【文】
- ViT 【图像】
- GAT/Graph Transformer 【图】
- MAE 【图像/视频】
- CLIP 【图像】
- VILT 【图像】
2023后: 与大模型架构相结合(所列出的模型全部属于多模态大模型)
- Grok3
- Qwen-VL
- GPT-4o
- Gemini
- Deepseek-VL
- LLAVA-NeXT
- Mini-GPT
- Doubao - 1.5
- Cosmos
技术发展趋势:
- 小模型专注于计算机视觉、文字处理等机器学习经典领域,聚焦人脸识别、目标检测等专业任务
- 大模型时代多模态表征是标配,聚焦多模态理解(语义对齐、协同学习)与多模态生成方向
- 图像+文字+视频的多模态融合是主要研究方向,主要需要解决语义对齐、语义融合与协同学习的问题。
2. 表征学习的主流架构
2.1 图像表征经典架构———CNN结构
说到表征就不得不说到CNN,关于CNN的结构就不多介绍了。我们在此思考,为什么CNN模型在CV领域取得了巨大的成功?
主要有以下几点原因:
- 感知性: 卷积层通过卷积操作和参数共享,能够提取图像的局部特征
- 参数共享:相同的卷积核在不同的位置对图像进行卷积操作,共享参数减少了模型的复杂度,也增强了模型的泛化能力
- 空间不变性:卷积操作具有平移不变性,即无论图像中的物体在图像中的位置如何变化,比如上下左右平移,最终都能被卷积核扫到,能够提取到相应的特征。
例如 可以到卷积可视化网站查看卷积操作都对图片做了什么。可以看到,浅层卷积分辨率高,提取点、颜色等基础特征,随着卷积的深入,逐渐提取到线段、边缘、轮廓、角点等特征,进行多层卷积之后的图像具有分辨率低的特点,从而能够和最终分类的抽象特征强相关联。这就是CNN模型起效的原因。
2.2 图像表征改进架构———Transformer结构
2.3 Transformer架构讨论分析
3. 多模态表征与多模态大模型
3.1 多模态表征的定义、动机和核心问题
3.2 多模态表征的经典结构
3.2.1 单塔结构(以VILT为例)
3.2.2 双塔结构(以CLIP为例)
3.3 多模态大模型
3.3.1 多模态大模型的通用结构
4. 参考文献
多模态表征学习 - 学习笔记
https://runsstudio.github.io/2025/04/23/表征学习/