半监督学习 是机器学习的一个分支,它同时利用少量有标签数据和大量无标签数据来进行模型训练。它介于监督学习(全部数据有标签)和无监督学习(全部数据无标签)之间

星博讯 AI基础认知 1

利用无标签数据中蕴含的数据分布、结构信息,来辅助和提升仅用少量有标签数据训练出的模型性能。

半监督学习 是机器学习的一个分支,它同时利用少量有标签数据和大量无标签数据来进行模型训练。它介于监督学习(全部数据有标签)和无监督学习(全部数据无标签)之间-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

一个生动的比喻

想象你要学习识别不同品种的狗:

  • 监督学习:你有一本带详细图片和名称的《世界名犬图鉴》(全部有标签),你通过反复看这些标注好的图片来学习。
  • 无监督学习:你被扔进一个满是狗的大公园,没人告诉你它们叫什么,你只能自己观察,发现有些狗长得像,可以分成几堆(聚类),但你不知道每一堆具体是什么品种。
  • 半监督学习:你只有一本很薄的《常见犬种介绍》(少量有标签),但同时你可以随时去那个满是狗的大公园观察(大量无标签),你可以先通过图鉴认识几种基础特征,然后去公园里观察无数只狗,发现“哦,原来具有这种毛色、体型的狗有这么多,它们很可能属于同一个品种”,公园里大量的观察(无标签数据)帮助你更好地理解和泛化了从薄图鉴里学到的知识。

为什么需要半监督学习?

  1. 现实世界的常态:在绝大多数实际应用中(如网页分类、图像识别、医疗影像分析),获取大量有标签数据的成本极其高昂(需要专家人工标注,耗时耗力),而无标签数据却很容易大量获取(互联网上的图片、文本、传感器数据等)。
  2. 性价比高:它试图用相对低廉的成本(少量标注)结合丰富的未标注信息,达到接近全监督学习的性能,是一种非常实用的技术路线。
  3. 利用数据的内在结构:无标签数据中蕴含着关于数据总体分布、流形结构、类别边界等重要信息,半监督学习通过利用这些信息,可以学习到更健壮、泛化能力更强的模型。

核心假设

半监督学习之所以有效,通常基于以下一个或几个基本假设:

  • 平滑性假设:在特征空间中距离相近的样本,其标签很可能相同。
  • 聚类假设:数据会形成天然的簇(cluster),同一个簇内的样本更可能共享相同的标签,这意味着决策边界应该穿过低密度区域,而不是高密度区域。
  • 流形假设:高维数据实际上分布在一个低维的流形上,在这个低维结构上,相似性更容易定义和判断。

主要方法分类

半监督学习方法多种多样,主要可以分为以下几类:

  1. 自训练

    • 流程:首先用有标签数据训练一个初始模型,然后用这个模型对无标签数据进行预测,将预测置信度高的样本及其“伪标签”加入到训练集中,重新训练模型,如此迭代。
    • 特点:简单直观,但容易因初始错误而积累误差。
  2. 协同训练

    • 流程:假设数据可以从两个不同的“视角”描述,训练两个不同的模型,每个模型基于自己的视角对有标签数据进行学习,然后分别挑选各自预测置信度高的无标签样本交给对方模型作为新的训练数据。
    • 特点:要求数据具有多视角特征,两个模型可以互相提供信息。
  3. 基于图的方法

    • 流程:将所有数据(有标签和无标签)构建成一个图,节点是样本,边的权重表示样本间的相似度,标签信息通过图上的边在节点间传播(类似“物以类聚,人以群分”)。
    • 特点:直观,但对图的质量和计算量敏感。
  4. 一致性正则化

    • 流程:这是现代深度学习中最主流的方法,核心思想是:一个良好的模型应该对输入数据的不同“扰动”或“变化”具有一致的输出,对同一张无标签图像进行不同的数据增强(裁剪、旋转、加噪),模型对它们的预测应该相似,通过在损失函数中添加一个“一致性损失”来惩罚模型预测的不一致,从而迫使模型学习到更本质的特征。
    • 代表算法:Π-Model, Temporal Ensembling, Mean Teacher, FixMatch, FlexMatch等。
  5. 生成式方法

    • 流程:假设所有数据(无论有无标签)都由同一个生成模型(如混合高斯模型、变分自编码器VAE、生成对抗网络GAN)产生,通过联合建模数据的分布和标签,同时利用有标签和无标签数据进行学习。
    • 特点:能从数据生成的角度进行学习。

应用场景

  • 图像分类与识别:拥有少量标注图片,但可以从网上爬取海量未标注图片。
  • 自然语言处理:文本分类、情感分析,标注大量文本费时费力,但未标注语料库很容易获得。
  • 语音识别:标注音频转录文本成本高,但原始音频数据丰富。
  • 生物信息学与医疗影像:专家标注医学影像(如肿瘤区域)非常昂贵,但医院存有大量未标注的影像数据。
  • 分类:互联网上有近乎无限的未分类网页。

优势与挑战

优势

  • 显著降低对标注数据的依赖,节约成本。
  • 能利用丰富的数据分布信息,提升模型泛化能力和鲁棒性。

挑战

  • 其有效性严重依赖于上述的“假设”在真实数据上是否成立,如果假设不成立,性能可能不如纯监督学习。
  • 方法复杂多样,需要根据具体任务和数据特性选择合适的方法。
  • 对于自训练等方法,存在错误累积和确认偏差的风险。

半监督学习是一种巧妙利用“免费”无标签数据来增强模型性能的实用范式,是连接数据稀缺现实与高性能模型需求之间的重要桥梁。

标签: 半监督学习 无标签数据

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00