一、核心概念，什么是分词？

星博讯 AI基础认知 2026-04-09 36

分词，就是将连续的文本序列（如句子），按照一定的规范和算法，切分成一个一个独立且有意义的词语或词元的过程。

一、核心概念，什么是分词？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

英文例句（已天然分词）： I love natural language processing.
- 分词结果：["I", "love", "natural", "language", "processing", "."]
中文例句（未分词）： 我爱自然语言处理。
- 目标分词结果：["我", "爱", "自然语言处理", "。"]
- 错误分词示例：["我爱", "自然", "语言", "处理", "。"]（改变了语义）

为什么需要分词？（分词的重要性）

分词技术的发展经历了从基于规则到基于统计再到基于深度学习的演变。

这是最经典、最直观的方法，其核心是：拥有一个尽可能大的、包含已知词语的“词典”,然后用文本去匹配词典中的词。

这类方法不依赖或较少依赖词典，而是利用大规模语料库中的统计信息来判断字与字之间的“亲密程度”,从而决定是否应该组合成一个词。

核心思想：如果两个字（或字符）在文本中经常共同出现,那么它们构成一个词的可能性就很大。
关键统计量：
- 互信息（PMI）：衡量两个随机变量的相关性，在分词中，用来衡量两个字组合在一起的强度。
  - PMI(x, y) = log( P(x, y) / (P(x) * P(y)) )
  - 值越大，说明x和y结合越紧密,越可能是一个词。
- 信息熵（左右熵）：衡量一个字（或词）左侧或右侧出现其他字的不确定性，一个成熟词语的左边或右边可以搭配的字通常比较丰富，即其左/右熵会比较高。
代表性方法：
- N-gram语言模型：计算不同切分路径的概率，选择概率最大的路径，对于一个句子，有多种切分方式 W1, W2, …，选择使 P(W1)*P(W2|W1)*... 乘积最大的切分。
- 隐马尔可夫模型（HMM）：将分词问题转化为序列标注问题，常用 B, M, E, S 标签（B-词首，M-词中，E-词尾，S-单字词）,用Viterbi算法求解最优的标签序列。
优点：能够发现新词,不依赖完备词典。
缺点：需要大量训练语料，计算量较大,对低频词效果不佳。

将分词视为序列标注任务或序列到序列任务，利用神经网络自动学习从字符序列到词边界（或词标签）的复杂映射。

原理：
1. 字符嵌入：将每个汉字或字符转换为一个稠密的向量表示。
2. 上下文编码：使用能够捕捉长距离依赖的神经网络（如BiLSTM、Transformer）对字符序列的上下文信息进行编码。
3. 标签预测：为每个字符预测一个标签（最常用的是 BME S 标签集）。
代表性模型：
- BiLSTM-CRF：双向LSTM捕捉上下文特征，条件随机场（CRF）层考虑标签之间的转移约束（B后面不能接S），输出全局最优标签序列,这曾是深度分词模型的标杆。
- 基于Transformer/BERT的模型：使用预训练语言模型（如BERT）作为编码器，获得更强大的上下文表示，然后接一个简单的分类层进行标签预测，这是目前SOTA（state-of-the-art）方法的主流。
优点：
- 准确率高,能有效利用上下文解决歧义。
- 端到端训练,无需人工设计复杂的特征。
- 与预训练模型结合,性能强大。
缺点：需要大量标注数据，模型复杂、计算资源消耗大。

歧义切分：同一个字符串可能有多种切分方式。
- 组合型歧义：“他／从／马／上／下来” vs “他／从／马上／下来”。
- 交集型歧义：“美国／会／通过” vs “美／国会／通过”。
未登录词识别：词典中没有的词，如新词、人名、地名、机构名、专业术语等。
分词规范与颗粒度：同一个词在不同应用场景下，颗粒度可能不同。
- “自然语言处理” 可以切为 [“自然语言处理”]（一个整体术语），也可以切为 [“自然”, “语言”, “处理”]（更细的颗粒度）。
- 这通常通过使用不同颗粒度的词典或模型来适配。