语音增强的主要目标是从含噪语音信号中提取出尽可能纯净的目标语音信号,这里的“噪声”是广义的,包括:

- 加性噪声:环境噪声(如风声、交通声)、背景人声、电子设备噪声等。
- 卷积噪声(或混响):由声学环境(如房间反射)引起的失真,表现为回声。
- 干扰说话人:在鸡尾酒会等场景中,需要分离出目标说话人。
核心矛盾在于,噪声与语音在时域和频域上通常是重叠和纠缠的,分离极具挑战性。
基本假设与原理
大多数传统方法基于以下关于语音和噪声的统计假设:
- 谐波结构与可预测性:语音在短时间内(约10-30ms,即一“帧”)是准平稳的,具有明显的谐波结构(基频及其倍频)和共振峰,因此是可预测的。
- 噪声特性:噪声通常比语音更不可预测,其频谱可能较平坦(如白噪声),或具有特定形状(如嗡嗡声)。
- 不相关性:理想情况下,纯净语音与噪声在统计上是不相关的。
基于这些假设,增强的核心思路是:在时频域(如通过短时傅里叶变换STFT获得)中,估计出每个时频单元(TF-bin)中语音和噪声的占比,然后对噪声占主导的单元进行抑制,对语音占主导的单元进行保留或增强。
经典方法与流程
一个典型的语音增强系统包含以下步骤:
预处理
- 预加重:使用高通滤波器提升高频分量,补偿语音发音时声带和嘴唇带来的高频衰减,使频谱更平坦。
- 分帧与加窗:将连续信号切成短帧(通常20-40ms),并使用窗函数(如汉明窗)减少帧边缘的不连续性。
时频分析
- 对每一帧信号进行短时傅里叶变换(STFT),得到其复数频谱 (X(t, f) = |X(t, f)| e^{j\phi(t, f)}),(t) 是时间帧索引,(f) 是频率索引,这是后续处理的基础表示。
噪声估计
- 这是最关键且困难的步骤,需要在没有语音活动或语音活动未知的情况下,估计背景噪声的统计特性(如功率谱)。
- 常用方法:
- 语音活动检测(VAD):判断当前帧是“语音”还是“纯噪声”,用纯噪声帧更新噪声估计。
- 最小统计量:跟踪一段时间内频谱能量的最小值,认为其对应噪声水平。
- 最小值控制递归平均(MCRA):结合VAD和递归平均的鲁棒方法。
增益计算(谱减法的核心思想)
- 根据噪声估计和带噪语音频谱,计算一个增益滤波器 (G(t, f))(0到1之间),该增益在语音强处接近1(保留),在噪声强处接近0(抑制)。
- 基本谱减法:( |\hat{S}(t, f)|^2 = |X(t, f)|^2 - \alpha \cdot |\hat{N}(t, f)|^2 ), 然后计算增益 (G = \sqrt{|\hat{S}|^2 / |X|^2})。(\alpha) 是过减因子,用于防止音乐噪声。
- 维纳滤波:从最小均方误差准则推导出的最优增益,形式为 (G = \frac{\xi(t, f)}{1 + \xi(t, f)}),(\xi) 是先验信噪比。
应用增益与重建
- 将增益应用于带噪语音的幅度谱:(|\hat{S}(t, f)| = G(t, f) \cdot |X(t, f)|)。
- 保留带噪语音的相位谱 (\phi(t, f))(因为相位对人类感知相对不敏感,且难以估计)。
- 对修改后的幅度谱 (|\hat{S}(t, f)|) 和原相位谱进行逆短时傅里叶变换(ISTFT),得到增强后的时域信号。
- 去加重:逆转预处理中的预加重操作。
主要传统算法
- 谱减法:最直观,但会产生“音乐噪声”。
- 维纳滤波:基于统计最优准则,性能优于基本谱减法。
- 子空间法:将信号空间分解为语音子空间和噪声子空间,丢弃噪声子空间分量。
- 统计模型法(如MMSE):在贝叶斯框架下,假设语音和噪声的统计分布(如高斯),求解最小均方误差意义下的最优频谱估计。对数MMSE(Log-MMSE) 因更符合人耳听觉特性而被广泛使用。
基于深度学习的方法(现代主流)
深度学习方法直接从数据中学习从带噪语音到纯净语音的映射,不再强烈依赖上述统计假设。
- 输入/输出表示:通常使用STFT后的幅度谱(或梅尔谱)作为输入特征,目标是纯净语音的幅度谱(或理想比率掩码IRM)。
- 理想比率掩码:一个更优的学习目标,定义为 (IRM(t, f) = \frac{|S(t, f)|}{|S(t, f)| + |N(t, f)|}),网络学习估计这个掩码,然后应用到带噪语音上。
- 常用网络架构:
- 全连接深度神经网络(DNN):早期方法,将频谱帧展开为向量进行处理。
- 卷积神经网络(CNN):能有效捕捉频谱图中的局部相关性。
- 循环神经网络(RNN)/长短期记忆网络(LSTM):建模语音信号的时间依赖性。
- 卷积循环网络(CRN):结合CNN和RNN的优点。
- U-Net、Transformer等更先进的架构也被成功应用。
- 端到端方法:直接处理时域波形(如使用WaveNet、Conv-TasNet等),避免STFT带来的局限性。
评估指标
- 客观指标:
- 信噪比(SNR):总信号功率与噪声功率之比。
- 分段信噪比(SegSNR):在短时帧上计算的SNR,更具参考价值。
- 语音质量感知评估(PESQ):ITU-T标准,模拟人耳主观听觉,范围-0.5到4.5。
- 短时客观可懂度(STOI):预测语音可懂度,范围0-1,与人类听音测试相关性高。
- 主观指标:平均意见得分(MOS),由真人在特定条件下聆听并打分,是最可靠的指标。
应用场景
- 语音通信(手机、VoIP)
- 助听器与人工耳蜗
- 语音识别前端预处理
- 录音后期处理
- 监控与司法分析
- 音频存档修复
语音增强从基于信号模型和统计假设的传统方法(谱减、维纳滤波),发展到了数据驱动的深度学习方法,传统方法原理清晰、计算量小,但在复杂噪声和非平稳环境下性能有限;深度学习方法性能强大、适应性强,但需要大量数据、计算资源,且可解释性较差,两者常结合使用(如用DNN估计传统方法中的关键参数),并持续向更高效、更鲁棒、端到端的方向发展。
理解语音增强,关键在于掌握时频分析思想和“估计-抑制-重建” 这一核心流程。