自监督学习(Self-Supervised Learning,SSL)是机器学习的一种范式,其核心思想是让模型从无标签的数据中自动生成监督信号(或称伪标签)进行学习,从而学习到数据中有意义的表示

星博讯 AI基础认知 1

它解决了“没有人工标注数据,如何让机器学习”的问题。

自监督学习(Self-Supervised Learning,SSL)是机器学习的一种范式,其核心思想是让模型从无标签的数据中自动生成监督信号(或称伪标签)进行学习,从而学习到数据中有意义的表示-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

核心思想

在传统监督学习中,我们需要为每个数据样本(如图片)提供人工标注的标签(如“猫”或“狗”),自监督学习则不同,它利用数据自身的内在结构或信息来构造一个预训练任务(也称为代理任务或前置任务),让模型去完成,通过完成这个任务,模型被迫理解数据中的特征和规律,从而学到对下游任务有用的通用表示。

关键要素与常见方法

自监督学习的过程通常分为两个阶段:

  1. 预训练阶段:在大量无标签数据上,通过设计代理任务进行训练。
  2. 微调或评估阶段:将预训练好的模型(通常是特征提取器)用于具体的下游任务(如图像分类、目标检测),这时可能只需要少量标注数据进行微调或直接进行特征提取。

常见的代理任务设计思路:

对于图像数据:

  • 上下文预测:将图像分块,打乱顺序,让模型预测块的相对位置。
  • 图像修复:遮挡图像的一部分,让模型重建被遮挡的内容。
  • 旋转预测:将图像随机旋转(如0°、90°、180°、270°),让模型预测旋转的角度。
  • 着色:将彩色图像转为灰度图,让模型预测颜色。
  • 对比学习:这是目前最主流和有效的方法,核心思想是拉近正样本对,推开负样本对
    • 正样本对:通常指同一张图像经过不同数据增强(如裁剪、颜色抖动)后的两个版本。
    • 负样本对:指来自不同原始图像的两个样本。
    • 模型学习辨别哪些样本是相似的(正对),哪些是不相似的(负对),代表方法有 SimCLR, MoCo 等。

对于文本数据:

  • 掩码语言模型:随机遮盖句子中的一些词,让模型预测被遮盖的词,这就是著名的 BERT 所使用的预训练方法。
  • 下一句预测:让模型判断两个句子是否是连续的(在原始文本中相邻)。

对于视频数据:

  • 时序顺序预测:打乱视频帧的顺序,让模型恢复正确顺序。
  • 速度预测:让模型判断视频是正常播放、加速还是减速。

自监督学习的优势

  1. 无需人工标注:可以利用海量易得的无标签数据(如互联网上的所有图像和文本),极大地扩展了可用数据的规模。
  2. 学习通用表示:通过精心设计的代理任务,模型能学到对多种任务都有用的底层特征(如物体的形状、纹理、语义概念)。
  3. 提升下游任务性能:用自监督学习预训练的模型作为起点,再用少量标注数据微调,通常能显著提升下游任务的性能和收敛速度,特别是在标注数据稀缺的领域。

与相关概念的比较

  • vs. 监督学习:监督学习依赖外部人工标签;自监督学习利用数据内部自动生成的标签。
  • vs. 无监督学习:无监督学习(如聚类、降维)是一个更宽泛的概念,目标通常是发现数据中的隐藏模式,自监督学习是无监督学习的一个子集,它特指通过“创建监督任务”来进行学习的方法,目标更明确——学习可迁移的特征表示。
  • vs. 半监督学习:半监督学习同时使用少量标注数据和大量无标注数据,自监督学习可以看作是半监督学习中“利用无标签数据”部分的一种强大技术。

应用与影响

自监督学习近年来取得了革命性进展,特别是在:

  • 自然语言处理:BERT、GPT 系列等大语言模型的成功,其基础就是自监督的预训练(掩码语言模型或自回归预测)。
  • 计算机视觉:在 ImageNet 等基准上,自监督学习方法学到的表示质量已接近甚至超过有监督预训练模型。
  • 语音、视频、图结构数据等领域也广泛应用。

自监督学习的定义可以精炼为:一种通过设计代理任务,从数据本身自动生成监督信号,以学习通用数据表示的机器学习范式,它是在大数据时代利用海量无标签数据的关键技术。

标签: 自监督学习 监督信号

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00