核心思想
- 输入:只有数据本身(特征),没有对应的标签/答案。
- 目标:探索数据内部的固有结构。
- 方法:通过算法,寻找数据点之间的相似性和差异性。
与监督学习的对比
为了更好地理解,可以将其与监督学习进行对比:

| 特性 | 监督学习 | 无监督学习 |
|---|---|---|
| 数据要求 | 有标签数据 (X, y) | 无标签数据 (X) |
| 目标 | 学习从输入到输出的映射函数,用于预测或分类。 | 发现数据内部的隐藏结构、模式或分布。 |
| 任务 | 分类、回归。 | 聚类、降维、关联规则学习、异常检测等。 |
| 类比 | 老师给出问题和标准答案,学生学会解题。 | 学生自己观察一堆物品,并找出它们之间的共同点和分组方式。 |
主要任务与方法
无监督学习主要围绕以下几个核心任务展开:
聚类
- 原理:将数据点分组,使得同一组(簇)内的点彼此相似,而不同组的点差异较大。
- 核心算法:
- K-Means:预先指定簇的数量K,通过迭代优化,将数据划分为K个球形簇。
- 层次聚类:通过构建树状结构(树状图)来展示数据点在不同粒度下的嵌套分组。
- DBSCAN:基于密度进行聚类,能发现任意形状的簇,并识别噪声点。
降维
- 原理:将高维数据(特征很多)映射到低维空间(如2维或3维),同时尽可能保留原始数据的重要信息(如方差、结构),目的是简化数据、去除噪音、可视化或作为其他任务的预处理步骤。
- 核心算法:
- 主成分分析:找到数据方差最大的几个相互正交的新方向(主成分),将数据投影上去。
- t-SNE:特别擅长于高维数据的可视化,它更注重保留数据点之间的局部邻接关系。
- 自编码器:一种神经网络方法,通过“压缩-重建”的过程学习数据的高效低维表示。
关联规则学习
- 原理:从大型事务数据集中发现物品(或特征)之间的有趣关联,如果买了A,很可能也会买B”。
- 典型应用:购物篮分析(“啤酒与尿布”的经典故事)。
- 核心算法:Apriori算法。
异常检测
- 原理:识别与大多数数据显著不同的“异常点”或“离群点”,其假设是异常数据在特征空间中非常稀疏。
- 方法:可以基于聚类(不属于任何大簇的点)、密度(低密度区域的点)或统计模型来实现。
密度估计
- 原理:估计数据在特征空间中的概率分布,即学习数据是如何生成的。
- 意义:这是许多无监督学习任务的根基,理解了数据分布,就能进行采样(生成新数据)、异常检测等。
- 方法:生成对抗网络 的核心思想之一就是学习并模拟真实数据的分布。
无监督学习的一般步骤
- 数据准备:收集和清洗无标签数据。
- 特征工程:(可选但重要)提取或构造对任务有帮助的特征。
- 选择算法:根据目标(是想分组、简化还是找关联)选择合适的无监督学习算法。
- 模型训练:算法自动探索数据模式,形成模型(如聚类中心、主成分、关联规则)。
- 结果解释与评估:这是最具挑战性的一步,因为没有标准答案,评估通常依赖:
- 内部指标:如聚类内部的紧密度和不同聚类间的分离度。
- 外部知识:结合领域知识判断结果是否合理、有用。
- 下游任务:用其结果(如降维后的特征)去做一个监督学习任务,看性能是否提升。
应用场景
- 客户细分:根据消费行为对用户进行聚类,实现精准营销。
- 推荐系统:通过聚类用户或物品,进行协同过滤推荐。
- 数据可视化:使用t-SNE/PCA将高维数据降至2D/3D进行观察。
- 主题建模:从大量文本中自动发现隐含的主题(如LDA算法)。
- 图像/声音生成:GAN通过学习图像分布,可以生成逼真的新图片。
- 数据压缩:自编码器可用于学习高效的数据编码。
- 科学研究:在天文学、生物学中从观测数据中发现新的类别或结构。
挑战
- 结果难以评估:没有客观的“正确”标准,严重依赖领域知识和后续验证。
- “没有免费午餐”定理:没有一种算法在所有问题上都表现最好,需要根据数据特点选择。
- 可解释性:某些复杂模型(如深层生成模型)学到的结构可能难以解释。
- 维度灾难:在高维空间中,数据变得极其稀疏,相似性和距离的概念可能失效。
无监督学习的本质是让机器成为数据的“探险家”和“总结者”,它不寻求一个已知的答案,而是致力于揭示数据自身未知的故事和结构,是探索性数据分析和理解复杂系统的强大工具。 近年来,自监督学习等新范式更是将无监督学习的理念与监督学习的形式相结合,取得了巨大突破。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。