像人类一样学习
想象一下教一个孩子:

- 第一阶段:通识教育(预训练),先让他阅读海量的书籍、文章,看大量的图片和视频,从中学习语言规律、世界知识、常识逻辑,这个阶段不针对任何具体任务(如写信、答题)。
- 第二阶段:专业培训(微调),当他需要成为一名律师时,再给他看大量的法律条文和案例进行专项训练;需要成为医生时,则学习医学教材。
预训练模型就遵循这个思路:
- 预训练:在一个超大规模、无标注(或弱标注)的通用数据集(如整个互联网文本、海量图片)上,通过一个预设的自监督学习任务进行训练,让模型学习到通用的特征表示和知识。
- 微调:将这个“通才”模型,在一个较小规模、有标注的特定任务数据集(如情感分类数据集、医疗问答对)上进行额外训练,使其快速适配到具体任务上。
核心组成部分与工作原理
架构(骨架)
预训练模型通常基于强大的神经网络架构:
- Transformer:当前NLP领域的绝对主流,其核心是自注意力机制,可以并行处理序列数据,并高效捕捉长距离依赖关系,几乎所有著名的NLP预训练模型都基于此。
- CNN / ViT:
- CNN(卷积神经网络):在计算机视觉领域传统且强大,通过卷积核提取局部特征。
- ViT(Vision Transformer):将图像分割成图块,视为序列,用Transformer处理,在CV领域也取得了巨大成功。
- 多模态架构:如CLIP(连接文本和图像)、DALL-E等,通常结合了处理不同模态数据的编码器。
预训练任务(学习方法)
这是让模型从无标注数据中“自学”的关键,核心思想是自动生成标签。
- 对于语言模型(NLP):
- 掩码语言建模(MLM):随机遮盖输入句子中的一些词,让模型预测被遮盖的词是什么(如BERT),这迫使模型理解上下文。
- 自回归语言建模:给定前面的词,预测下一个词(如GPT),这训练模型生成连贯文本。
- 下一句预测(NSP):判断两个句子是否在原文中相邻,训练模型理解句子间关系。
- 对于视觉模型(CV):
- 图像掩码重建:随机遮盖图像的一部分,让模型预测被遮盖的部分(如MAE)。
- 对比学习:让模型学习区分“相似”(同一图像的不同视角)和“不相似”(不同图像)的样本(如MoCo, SimCLR)。
微调(适应具体工作)
将预训练好的模型参数作为起点,在特定任务数据上继续训练。
- 全参数微调:更新模型的所有参数。
- 高效微调:为了节省计算资源,只更新一小部分参数。
- 提示微调(Prompt Tuning):在输入前添加可学习的“提示”向量。
- 适配器(Adapter):在Transformer层中插入小型可训练模块。
- LoRA:在模型权重上添加低秩分解的可训练矩阵。
著名模型举例
| 模型名 | 领域 | 核心特点 | 预训练任务 | 典型应用 |
|---|---|---|---|---|
| BERT | NLP | 双向编码器,深度理解上下文 | MLM, NSP | 文本分类、问答、命名实体识别 |
| GPT系列 | NLP | 自回归解码器,强大生成能力 | 自回归语言建模 | 文本生成、对话、代码生成、创作 |
| T5 | NLP | “文本到文本”统一框架,所有任务都转化为生成任务 | 多种去噪任务 | 翻译、分类(都输出文本) |
| ViT | CV | 将Transformer应用于图像 | 图像分类(有监督) / 掩码重建 | 图像分类、目标检测 |
| CLIP | 多模态 | 对齐图像和文本的表示空间 | 图文对比学习 | 零样本图像分类、图像检索、文生图引导 |
| DALL-E / Stable Diffusion | 多模态 | 从文本生成图像 | 文图对生成/去噪扩散模型 | 艺术创作、设计、内容生成 |
为什么如此强大?(优势)
- 知识迁移:将从海量数据中学到的通用知识迁移到下游任务,减少对大量标注数据的依赖。
- 性能卓越:在几乎所有NLP和许多CV基准任务上,都达到了state-of-the-art的水平。
- 通用性强:一个基座模型(如GPT-3)可以通过提示或微调,应用到成千上万种不同的任务上。
- 加速开发:开发者无需从零开始训练巨型模型,可以直接基于开源预训练模型进行微调,极大降低了研究和应用的门槛与成本。
面临的挑战与问题
- 计算巨兽:训练需要海量的计算资源(GPU/TPU)和电力,通常只有大公司才能承担,引发了环境和经济可及性的担忧。
- 黑箱问题:模型庞大复杂,其决策过程和内部知识存储难以解释,可能导致不可预测的错误或偏见。
- 偏见与毒性:模型从互联网数据中学习,会继承并放大数据中存在的社会偏见、歧视和有害内容。
- 幻觉:尤其是生成式模型,可能会生成看似合理但完全错误或虚构的内容。
- 数据与版权:训练数据的使用往往涉及隐私和版权问题,引发法律和伦理争议。
未来趋势
- 规模继续扩大:模型参数和数据量仍在增长,追求“涌现能力”。
- 多模态融合:从单一文本或图像,向统一处理文本、图像、音频、视频的通用多模态模型发展。
- 高效化:研究更高效的架构(如MoE)、训练方法和微调技术,以降低资源消耗。
- 可控与可解释:增强模型的可控性、安全性和可解释性,减少偏见和幻觉。
- Agent(智能体):让预训练模型具备使用工具、规划步骤、与环境交互的能力,向更通用的人工智能发展。
预训练模型的本质是通过自监督学习从大数据中榨取通用知识,再通过迁移学习快速适配到具体任务上的技术范式,它以Transformer为骨干,以BERT/GPT等为代表,正在深刻改变我们开发和使用AI的方式,是当前通向更通用人工智能的一条核心路径,同时也伴随着巨大的技术、伦理和社会挑战。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。