AI基础认知,实体识别到底能识别哪些信息?一文详解

星博讯 AI基础认知 6

目录导读

  1. 什么实体识别?——AI的“信息提取眼”
  2. 实体识别主要识别哪些信息?——五大核心类型
  3. 常见实体类型详解——人名、地名、机构名、时间、数量
  4. 实体识别的应用场景——从搜索风控
  5. 问答环节——解答你最常见的疑惑

什么是实体识别?——AI的“信息提取眼”

人工智能(AI)的广阔版图中,实体识别(Named Entity Recognition,NER)是自然语言处理(NLP)最基础也最关键的任务之一,它就像AI的“信息提取眼”,能够从一段杂乱无章的文本中,精准地找出具有特定意义的“实体”——也就是那些承载心信息的词语或短语,实体识别帮助计算机理解“谁在哪儿、什么时候做了什么、涉及多少数量”这类问题

AI基础认知,实体识别到底能识别哪些信息?一文详解-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

无论是搜索引擎的智能摘要、智能客服语义理解,还是金融风控中的信息提取,都离不开实体识别技术,而这一技术的核心,在于识别哪些信息,下面,我们就从星博讯的视角,带你全面梳理实体识别所覆盖的信息类型。


实体识别主要识别哪些信息?——五大核心类型

实体识别主要识别的信息,可以归纳为五大核心类型,这些类型几乎覆盖了人类语言中90%以上的结构信息需求,根据大量已发表的NLP研究报告(如ACL、EMNLP会议论文)以及主流企业(如Google、Baidu、Microsoft)的公开技术文档,最常见的实体类别包括:

类别 举例 常见标签
人名 张三、爱因斯坦、乔布斯 PER
地名 北京、珠穆朗玛峰、美 LOC
机构名 阿里巴巴、北京大学、联合国 ORG
时间 2025年4月、昨天、下周一 TIME
数量/金额/百分比 100元、30%、五公里 MONEY/PERCENT/QUANTITY

一些高级实体识别系统还会识别产品名(如iPhone 16)、事件名(如世界杯)、法律条文编号(如《民法典》第102条)等,从行业应用来看,医疗领域会识别疾病名、药物名;金融领域会识别股票代码、公司名称,但无论如何扩展,上述五大核心类型是实体识别的基骨架

举个实际例子:在句子“2024年12月,星博讯技术团队在上海与微软中国达合作协议,涉及金额5000万元”中,实体识别会提取出:

  • 时间:2024年12月
  • 机构名:星博讯(如果作为组织名)、微软中国
  • 地名:上海
  • 金额:5000万元

这些信息正是机器理解语义、构建知识图谱的“积木”,如果你想了解更多关于AI基础认知的内容,可以访问 https://www.xingboxun.cn/ 阅读系列文章。


常见实体类型详解

1 人名(PER)

人名识别是实体识别最早的落地场景之一,它需要区分姓氏、名字、称呼(如“李教授”、“王总”),甚至包括笔名、代号,中文人名的复杂性在于单字姓、复姓、音译名等。“欧阳锋”和“李小龙”中的“欧阳”是复姓,“锋”和“龙”都是单名,优秀的NER系统会结合词性标注和上下文进行判断。

2 地名(LOC)

地名包括国家、城市、山川、河流、街道等,注意,地名有时会和机构名产生歧义——华盛顿”既可以指美国总统(人名),也可以指美国首都(地名),实体识别需要通过上下文消歧,“华盛顿宣布新政策”中的“华盛顿”大概率指人,而“华盛顿位于东海岸”中的“华盛顿”指地点。

3 机构名(ORG)

机构名通常包含企业、政府机关、学校、医院等,识别难度在于机构名往往很长且有嵌套,北京大学人工智能研究院”既是“北京大学”的下属机构,又包含了“北京大学”这一机构名,现代NER模型(如BERT-CRF)能很好地处理这种层级结构。

4 时间(TIME)

时间表达式极其多样:绝对时间(2025年4月1日)、相对时间(昨天、下个月)、模糊时间(最近几年、古代),实体识别需要将这些表达式标准化成可计算的格式,这也是搜索引擎排序和新闻聚类的基础。

5 数量、金额与百分比

这类实体直接关系到交易、统计和逻辑推理。“超过80%的用户”、“价格降至299元”,识别它们有助于机器理解“多与少”、“高与低”的量化关系,注意,数字中可能隐含单位,300km”中的“km”需要与数字绑定为一个实体。

在AI基础认知的系统学习中,你可以通过 https://www.xingboxun.cn/ 找到更多NER的实战教程星博讯技术团队也会持续更新案例。


实体识别的应用场景

实体识别早已渗透到我们日常使用的产品中:

  • 搜索引擎:当你搜索“北京到上海的高铁”,实体识别会自动提取“北京”(出发地)和“上海”(目的地),从而返回精准的列车时刻表。
  • 智能客服:用户说“我想退掉昨天买的红色运动鞋”,系统会识别出“昨天”(时间)、“红色运动鞋”(商品名)、“退掉”(动作),自动唤起售后流程
  • 金融风控:从新闻或合同中提取“公司名称”、“金额”、“担保人”等实体,监控潜在风险
  • 医疗信息化:从病历中提取“疾病名称”、“用药剂量”、“检查日期”,辅助医生决策。

可以说,没有实体识别,AI就只是一堆无法理解的字串,而随着多模态大模型的发展,实体识别也在向图像、视频中的OCR文本延伸。


问答环节

问:实体识别中的“实体”是否包括普通名词?桌子”“苹果”?

答:通常不包括,实体识别聚焦于命名实体(Named Entity),即具有唯一指代性的名称(如“苹果公司”中的“苹果”作为机构名可以被识别,但句子中“我吃了一个苹果”中的“苹果”作为普通名词不会被标记),不过一些扩展方案会识别“产品类别”(如“手机”、“汽车”),但这不是标准NER的范畴。

问:中文实体识别比英文难在哪里?

答:中文没有空格,分词本身就是一个挑战,南京市长江大桥”,如果分错词会变成“南京市长/江大桥”或“南京市/长江大桥”,分别对应人名+地名或地名+地名,中文的简称、谐音、网络流行语(如“扎心了老铁”)都增加了识别难度。星博讯团队在中文NER领域积累了丰富的实践经验,相关技术细节可以参考 https://www.xingboxun.cn/ 中的技术专栏。

问:实体识别和关系抽取有什么不同?

答:实体识别是基础,它只找出“谁、什么、哪里”;关系抽取则在实体之间建立语义联系(如“张三任职于阿里巴巴”中的“任职于”),二者协同工作,才能构建完整的知识图谱。

问:如何开始学习实体识别?

答:建议先掌握基础的NLP流程(分词、词性标注),然后学习条件随机场(CRF)和BERT模型,开源工具如HanLP、spaCy、Stanza都内置了中文NER模块,通过 https://www.xingboxun.cn/ 你可以找到由浅入深的AI基础认知课程,常适合入门

标签: 信息提取

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00