什么是命名实体识别？

星博讯 AI基础认知 2026-04-09 1

命名实体识别 是自然语言处理中的一个基础且重要的子任务，属于信息提取的范畴，它的核心目标是：从非结构化的文本中，识别出具有特定意义的实体，并将其归类到预定义的类别中。

什么是命名实体识别？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

就是让计算机像人一样，能从一段话里找出“名字”—— 人名、地名、组织名等,并知道它属于哪一类。

核心要素

实体：文本中表示现实世界对象的单词或短语。
类别：实体所属的预定义类型，最常见的类别包括：
- PER：人名
- LOC：地点名
- ORG：组织机构名
- 其他常见类别：时间、日期、货币、百分比、产品名、书名、医疗术语等。

NER是许多高级NLP应用的基石：

NER技术的发展经历了从规则到统计,再到深度学习的过程：

基于规则的方法：
- 原理：人工编写复杂的规则（如词典、正则表达式、语法模式）。
- 优点：在特定领域（如医疗、法律）和小规模数据上精准度高。
- 缺点：可移植性差，构建和维护成本高,难以覆盖所有情况。
基于统计机器学习的方法：
- 原理：将NER视为序列标注问题，每个词被赋予一个标签（如B-PER、I-LOC、O）。
- 常用模型：隐马尔可夫模型、条件随机场。
- 流程：需要大量人工标注的数据进行训练，提取词性、词形等特征。
- 优点：比规则方法更灵活,泛化能力更强。
- 缺点：特征工程依赖人工设计。
基于深度学习的方法（当前主流）：
- 原理：利用神经网络自动学习文本的特征表示,无需复杂的特征工程。
- 核心架构：
  - 词嵌入层：将单词转化为稠密向量。
  - 上下文编码层：BiLSTM或Transformer（如BERT）来捕获上下文信息。
  - 标签解码层：CRF层或简单的Softmax,用于预测最佳标签序列。
- 优点：性能卓越，端到端训练，能有效利用大规模未标注数据（预训练）。
- 代表模型：BERT、RoBERTa、ERNIE等预训练语言模型,通过微调在NER任务上达到了顶尖水平。