核心定义与目标
语音识别,或称自动语音识别,是一门交叉学科技术,涉及信号处理、模式识别、语音语言学等,其核心任务是将一段语音信号 自动、准确地转换为对应的文本序列。

基本公式可以理解为:
文本 = argmax( P(文本 | 音频信号) )
即,在所有可能的文本序列中,找到给定音频信号条件下概率最大的那个文本。
核心处理流程(传统与现代混合视角)
一个完整的语音识别系统通常包含以下关键步骤:
预处理
- 降噪/增强:去除背景噪音、回声等,提升语音质量。
- 分帧:语音信号是时变信号,但在极短时间(如10-30毫秒)内可以认为是稳定的,因此需要将连续的语音流切割成许多小帧(通常有重叠,如帧移10毫秒)。
- 加窗:对每一帧信号乘以一个窗函数(如汉明窗),以减少分帧造成的频谱泄露。
特征提取
从每一帧语音信号中提取出最能代表语音特性、且对说话人和环境变化相对不敏感的特征向量,这是最关键的一步。
- 经典特征:MFCC(梅尔频率倒谱系数) 和 FBank(梅尔频谱),它们模拟了人耳对不同频率声音的感知特性(梅尔尺度),是多年来最主流的特征。
- 现代特征:随着深度学习发展,原始波形或简单的频谱图也可以直接输入到深度神经网络中,由网络自动学习高层次的特征表示。
声学模型
这是系统的“耳朵”,负责建立音频特征序列与音素(或子词单元)序列之间的映射关系。
- 核心任务:计算
P(音频特征 | 音素)。 - 传统方法:基于隐马尔可夫模型 和高斯混合模型,HMM负责建模语音信号的时序动态变化(状态转移),GMM负责建模每个HMM状态所对应的声学特征分布。
- 现代主流:深度学习模型取代GMM,与HMM结合(称为DNN-HMM或TDNN-HMM等)。
- DNN/CNN:用于更精准地计算每个HMM状态的观测概率。
- 循环神经网络/Transformer:更好地捕捉语音的长时上下文依赖。
- 端到端模型:如CTC(连接时序分类)、RNN-T(循环神经网络 transducer)、Attention-based模型(如LAS),这些模型试图直接学习“音频特征 -> 文本”的映射,简化甚至省去了HMM、发音词典等中间模块,是当前的研究和应用热点。
发音词典
一个包含了“单词”到其“发音音素序列”映射的查表。
“HELLO” -> HH AH L OW
它连接了声学模型(处理音素)和语言模型(处理单词)。
语言模型
这是系统的“大脑”,负责刻画单词之间的组合规律和概率。
- 核心任务:计算一个单词序列出现的概率
P(单词1, 单词2, ..., 单词N)。 - 作用:帮助系统在发音相似的词之间做出正确选择,根据“今天天气很好”比“今天天汽很好”概率大得多,系统会选择前者。
- 模型类型:
- N-gram:传统统计方法,基于前N-1个词预测下一个词。
- 神经语言模型:使用RNN、LSTM、Transformer(如BERT、GPT)等深度学习模型,能捕捉更长距离的上下文依赖,效果远超N-gram,已成为主流。
解码与搜索
这是系统的“决策器”,它将以上所有部分(声学模型得分、语言模型得分、发音词典路径)结合起来,在一个巨大的搜索空间(所有可能的词序列)中,快速找到最优的文本输出。
- 常用技术:加权有限状态转换器(业界标准工具)或束搜索。
关键技术挑战
- 说话人多样性:口音、语速、年龄、性别差异。
- 环境噪音:背景音乐、他人谈话、车辆噪音等。
- 口语化与上下文:含糊发音、犹豫词(“呃”、“那个”)、口语语法、指代、领域专有词汇。
- 资源稀缺:对于小语种或特定领域(如医疗),标注数据难以获取。
- 实时性要求:许多应用需要低延迟的识别。
主要应用
- 智能助手:Siri、小爱同学、天猫精灵等。
- 实时字幕/会议转录:Zoom、腾讯会议的字幕功能。
- 语音输入法:微信语音转文字、搜狗输入法语音输入。
- 语音搜索/控制:智能家居控制、车载语音系统。
- 客服质检与分析:自动分析通话内容,进行服务质量监控。
重要发展趋势
- 端到端模型:简化系统流程,降低构建复杂度,性能不断提升。
- 自监督预训练:利用海量无标注语音数据(如Wav2Vec 2.0, HuBERT)进行预训练,然后在少量标注数据上微调,极大降低了对标注数据的依赖。
- 多模态融合:结合唇读(视觉信息)来提高嘈杂环境下的识别率。
- 个性化与场景自适应:让系统快速适应特定用户的口音或特定场景的声学环境。
- 流式识别与低延迟优化:满足实时交互应用的需求。
语音识别是一个从物理声波到抽象文本的复杂转换过程,其核心在于利用声学模型理解“声音是什么”,利用语言模型理解“文本应该是什么”,并通过解码器将两者高效结合,最终在复杂多变的环境中输出最可能的文本结果,当前,深度学习,特别是端到端和自监督学习技术,正在持续推动该领域向前发展。