核心处理流程
语音转文字通常分为以下几个关键阶段:

-
信号预处理
- 降噪与增强:去除背景噪声、回声等干扰,提升语音清晰度。
- 分帧:将连续的音频流切割成短时片段(通常每帧20-40毫秒,重叠50%),因为语音信号在短时间内可视为稳定状态。
- 加窗:对每帧信号应用窗函数(如汉明窗),减少分帧导致的边界效应。
-
声学特征提取
- 从每帧音频中提取关键特征,传统方法常用梅尔频率倒谱系数(MFCC),模拟人耳对不同频率的敏感度。
- 现代系统也使用滤波器组特征(FBank) 或直接使用原始波形作为深度网络的输入。
-
声学模型
- 作用:将声学特征映射到音素(语音的最小单位)或子词单元。
- 传统方法:使用隐马尔可夫模型(HMM) 描述音素状态之间的转移概率,结合高斯混合模型(GMM) 建模特征分布(GMM-HMM框架)。
- 现代方法:基于深度学习,常用:
- 循环神经网络(RNN):处理时序依赖,如LSTM、GRU。
- 卷积神经网络(CNN):提取局部声学模式。
- Transformer:利用自注意力机制捕捉长距离上下文。
- 端到端模型:直接学习音频到文本的映射,无需中间音素标注。
-
语言模型
- 作用:根据词汇之间的概率关系,纠正声学模型输出的错误,提升文本合理性。
- 传统方法:N-gram模型,基于统计历史词频预测下一个词。
- 现代方法:使用大规模文本训练的神经网络语言模型(如BERT、GPT),更好地理解语义和语法。
-
解码与输出
- 结合声学模型和语言模型的输出,通过解码器(如加权有限状态转换器WFST、束搜索)在所有可能的词序列中找到概率最高的文本结果。
关键技术演进
- 端到端模型:简化传统流水线,直接输出字符或单词序列(如CTC、RNN-T、Transducer 模型)。
- 自监督预训练:使用大量无标签音频训练模型(如Wav2Vec 2.0、HuBERT),再通过少量标注数据微调,显著提升低资源场景效果。
- 多模态融合:结合视觉信息(如唇动)提升嘈杂环境下的识别率。
挑战与优化方向
- 噪声环境:车载、公共场所等场景的鲁棒性。
- 口音与方言:需多样化数据训练。
- 实时性:流式识别(如Google的Streaming ASR)要求低延迟。
- 计算效率:模型轻量化以适应移动设备。
应用场景
- 智能助手:Siri、小爱同学等。
- 实时字幕:会议、直播、视频翻译。
- 语音输入法:微信语音转文字。
- 医疗/司法记录:转录录音文件。
简单比喻
可以将语音识别比作一个“听觉大脑”:
- 耳朵(预处理)接收声音并过滤杂音。
- 听觉神经(声学模型)分析声音特征,辨发音素。
- 语言中枢(语言模型)根据词汇组合规律,猜出完整句子。
- 输出(解码)将最合理的句子转化为文字。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。