多模态表征学习 - 学习笔记

1.表征学习的定义、分类和发展趋势

1.1 表征学习的定义

表征学习的定义:表征学习(Representation Learning)是一种通过算法从数据中自动学习到有用特征的技术,其目的是将复杂的、高维的原始数据转化为机器学习能够高效处理的低维特征表示。表征学习对应的是经典机器学习中的“特征提取”模块,过往常常通过人工去提取特征,表征学习则将此过程自动化,通过机器学习算法处理。
表征学习的模型输入:原始数据,其中包含高维度特征,例如:图像、文字、音频、视频、图等结构化或非结构化的数据
表征学习输出:经过表征学习之后,提取出能被下游任务使用的低维特征。这里的特征可以是显式的也可以是隐式的。目前主流的技术路线是将表征层作为上游任务预训练,学习完成之后向下游任务传递隐式信息。模型的下游任务可以是分类、预测、生成式任务。

多模态表征学习实例之Gemini模型架构

1.2 表征学习的分类

表征学习按照任务划分,可以划分为:

  • 文字表征

    • 核心:对文本进行表征,即自然语言符号信息表示成数字信息,方便下游任务处理
    • 经典方法
      • Word2Vec(Word Embedding)
      • Bert(Deep Model)
  • 视觉表征

    • 核心:理解各种视觉图像数据(如照片、医学图像、文件扫描、视频流)等的语义
    • 经典方法
      • Vgg-16、 ResNet(CNN系)
      • MAE、VIT(Transformer系)
  • 音频表征

    • 核心:从音频信号中提取对应的声音特征
    • 经典方法
      • Wav2Vec
      • SimCLR
      • MAE
  • 图表征

    • 核心:将图数据映射到向量空间,以保留图的结构特征和语义特征
    • 经典方法
      • GCN
      • GAT
  • 多模态表征

    • 核心:旨在融合多种数据模态(如:文本、图像、音频、视频等)来提高模型的感知与理解能力,实现跨模态信息的交互与融合
    • 经典方法
      • 预训练:BEIT、MAE
      • 语义对齐:BLIP、CLIP、BEIT等
      • 大模型:GPT、Gemini等

1.3 表征学习的发展趋势

2018年以前:以CNN/RNN/DNN架构为主

  • AlexNet 【图像】
  • Vgg16 【图像】
  • ResNet 【图像】
  • Word2Vec 【文字】
  • GCN 【图】

2018-2023: Transformer架构逐渐成为主流框架、

  • BERT 【文】
  • ViT 【图像】
  • GAT/Graph Transformer 【图】
  • MAE 【图像/视频】
  • CLIP 【图像】
  • VILT 【图像】

2023后: 与大模型架构相结合(所列出的模型全部属于多模态大模型)

  • Grok3
  • Qwen-VL
  • GPT-4o
  • Gemini
  • Deepseek-VL
  • LLAVA-NeXT
  • Mini-GPT
  • Doubao - 1.5
  • Cosmos

技术发展趋势:

  • 小模型专注于计算机视觉、文字处理等机器学习经典领域,聚焦人脸识别、目标检测等专业任务
  • 大模型时代多模态表征是标配,聚焦多模态理解(语义对齐、协同学习)与多模态生成方向
  • 图像+文字+视频的多模态融合是主要研究方向,主要需要解决语义对齐、语义融合与协同学习的问题。

2. 表征学习的主流架构

2.1 图像表征经典架构———CNN结构

说到表征就不得不说到CNN,关于CNN的结构就不多介绍了。我们在此思考,为什么CNN模型在CV领域取得了巨大的成功?
主要有以下几点原因:

  • 感知性: 卷积层通过卷积操作和参数共享,能够提取图像的局部特征
  • 参数共享:相同的卷积核在不同的位置对图像进行卷积操作,共享参数减少了模型的复杂度,也增强了模型的泛化能力
  • 空间不变性:卷积操作具有平移不变性,即无论图像中的物体在图像中的位置如何变化,比如上下左右平移,最终都能被卷积核扫到,能够提取到相应的特征。

例如 可以到卷积可视化网站查看卷积操作都对图片做了什么。可以看到,浅层卷积分辨率高,提取点、颜色等基础特征,随着卷积的深入,逐渐提取到线段、边缘、轮廓、角点等特征,进行多层卷积之后的图像具有分辨率低的特点,从而能够和最终分类的抽象特征强相关联。这就是CNN模型起效的原因。
卷积操作可视化

2.2 图像表征改进架构———Transformer结构

2.3 Transformer架构讨论分析

3. 多模态表征与多模态大模型

3.1 多模态表征的定义、动机和核心问题

3.2 多模态表征的经典结构

3.2.1 单塔结构(以VILT为例)

3.2.2 双塔结构(以CLIP为例)

3.3 多模态大模型

3.3.1 多模态大模型的通用结构

4. 参考文献


多模态表征学习 - 学习笔记
https://runsstudio.github.io/2025/04/23/表征学习/
发布于
2025年4月23日
许可协议