多模态表征学习 - 学习笔记
1.表征学习的定义、分类和发展趋势
1.1 表征学习的定义
表征学习的定义:表征学习(Representation Learning)是一种通过算法从数据中自动学习到有用特征的技术,其目的是将复杂的、高维的原始数据转化为机器学习能够高效处理的低维特征表示。表征学习对应的是经典机器学习中的“特征提取”模块,过往常常通过人工去提取特征,表征学习则将此过程自动化,通过机器学习算法处理。
表征学习的模型输入:原始数据,其中包含高维度特征,例如:图像、文字、音频、视频、图等结构化或非结构化的数据
表征学习输出:经过表征学习之后,提取出能被下游任务使用的低维特征。这里的特征可以是显式的也可以是隐式的。目前主流的技术路线是将表征层作为上游任务预训练,学习完成之后向下游任务传递隐式信息。模型的下游任务可以是分类、预测、生成式任务。
1.2 表征学习的分类
表征学习按照任务划分,可以划分为:
文字表征
- 核心:对文本进行表征,即自然语言符号信息表示成数字信息,方便下游任务处理
- 经典方法
- Word2Vec(Word Embedding)
- Bert(Deep Model)
视觉表征
- 核心:理解各种视觉图像数据(如照片、医学图像、文件扫描、视频流)等的语义
- 经典方法
- Vgg-16、 ResNet(CNN系)
- MAE、VIT(Transformer系)
音频表征
- 核心:从音频信号中提取对应的声音特征
- 经典方法
- Wav2Vec
- SimCLR
- MAE
图表征
- 核心:将图数据映射到向量空间,以保留图的结构特征和语义特征
- 经典方法
- GCN
- GAT
多模态表征
- 核心:旨在融合多种数据模态(如:文本、图像、音频、视频等)来提高模型的感知与理解能力,实现跨模态信息的交互与融合
- 经典方法
- 预训练:BEIT、MAE
- 语义对齐:BLIP、CLIP、BEIT等
- 大模型:GPT、Gemini等
1.3 表征学习的发展趋势
2018年以前:以CNN/RNN/DNN架构为主
- AlexNet 【图像】
- Vgg16 【图像】
- ResNet 【图像】
- Word2Vec 【文字】
- GCN 【图】
2018-2023: Transformer架构逐渐成为主流框架、
- BERT 【文】
- ViT 【图像】
- GAT/Graph Transformer 【图】
- MAE 【图像/视频】
- CLIP 【图像】
- VILT 【图像】
2023后: 与大模型架构相结合(所列出的模型全部属于多模态大模型)
- Grok3
- Qwen-VL
- GPT-4o
- Gemini
- Deepseek-VL
- LLAVA-NeXT
- Mini-GPT
- Doubao - 1.5
- Cosmos
技术发展趋势:
- 小模型专注于计算机视觉、文字处理等机器学习经典领域,聚焦人脸识别、目标检测等专业任务
- 大模型时代多模态表征是标配,聚焦多模态理解(语义对齐、协同学习)与多模态生成方向
- 图像+文字+视频的多模态融合是主要研究方向,主要需要解决语义对齐、语义融合与协同学习的问题。
2. 表征学习的主流架构
2.1 图像表征经典架构———CNN结构
2.2 图像表征改进架构———Transformer结构
2.3 Transformer架构讨论分析
3. 多模态表征与多模态大模型
3.1 多模态表征的定义、动机和核心问题
3.2 多模态表征的经典结构、
3.2.1 单塔结构(以VILT为例)
3.2.2 双塔结构(以CLIP为例)
3.3 多模态大模型
3.3.1 多模态大模型的通用结构
4. 时空图表征
4.1 交通场景下的表征学习
4.2 时空图的定义
4.3 图表征的经典框架(GCN、GAT)
4.4 时空图表征经典模型(STGCN)
4.5 时空图表征与信号控制相结合的案例(CoLight、STLight)
5. 参考文献
多模态表征学习 - 学习笔记
https://runsstudio.github.io/2025/04/23/表征学习/