我们可以将其分为几个核心部分来理解

星博讯 AI基础认知 1

核心定义与目标

语音识别,或称自动语音识别,是一门交叉学科技术,涉及信号处理、模式识别、语音语言学等,其核心任务是将一段语音信号 自动、准确地转换为对应的文本序列

我们可以将其分为几个核心部分来理解-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

基本公式可以理解为
文本 = argmax( P(文本 | 音频信号) )
即,在所有可能的文本序列中,找到给定音频信号条件下概率最大的那个文本。


核心处理流程(传统与现代混合视角)

一个完整的语音识别系统通常包含以下关键步骤:

预处理

  • 降噪/增强:去除背景噪音、回声等,提升语音质量。
  • 分帧:语音信号是时变信号,但在极短时间(如10-30毫秒)内可以认为是稳定的,因此需要将连续的语音流切割成许多小帧(通常有重叠,如帧移10毫秒)。
  • 加窗:对每一帧信号乘以一个窗函数(如汉明窗),以减少分帧造成的频谱泄露。

特征提取

从每一帧语音信号中提取出最能代表语音特性、且对说话人和环境变化相对不敏感的特征向量,这是最关键的一步。

  • 经典特征MFCC(梅尔频率倒谱系数)FBank(梅尔频谱),它们模拟了人耳对不同频率声音的感知特性(梅尔尺度),是多年来最主流的特征。
  • 现代特征:随着深度学习发展,原始波形或简单的频谱图也可以直接输入到深度神经网络中,由网络自动学习高层次的特征表示。

声学模型

这是系统的“耳朵”,负责建立音频特征序列音素(或子词单元)序列之间的映射关系。

  • 核心任务:计算 P(音频特征 | 音素)
  • 传统方法:基于隐马尔可夫模型高斯混合模型,HMM负责建模语音信号的时序动态变化(状态转移),GMM负责建模每个HMM状态所对应的声学特征分布。
  • 现代主流深度学习模型取代GMM,与HMM结合(称为DNN-HMMTDNN-HMM等)。
    • DNN/CNN:用于更精准地计算每个HMM状态的观测概率。
    • 循环神经网络/Transformer:更好地捕捉语音的长时上下文依赖。
    • 端到端模型:如CTC(连接时序分类)RNN-T(循环神经网络 transducer)Attention-based模型(如LAS),这些模型试图直接学习“音频特征 -> 文本”的映射,简化甚至省去了HMM、发音词典等中间模块,是当前的研究和应用热点。

发音词典

一个包含了“单词”到其“发音音素序列”映射的查表。 “HELLO” -> HH AH L OW 它连接了声学模型(处理音素)和语言模型(处理单词)。

语言模型

这是系统的“大脑”,负责刻画单词之间的组合规律和概率。

  • 核心任务:计算一个单词序列出现的概率 P(单词1, 单词2, ..., 单词N)
  • 作用:帮助系统在发音相似的词之间做出正确选择,根据“今天天气很好”比“今天天汽很好”概率大得多,系统会选择前者。
  • 模型类型
    • N-gram:传统统计方法,基于前N-1个词预测下一个词。
    • 神经语言模型:使用RNN、LSTM、Transformer(如BERT、GPT)等深度学习模型,能捕捉更长距离的上下文依赖,效果远超N-gram,已成为主流。

解码与搜索

这是系统的“决策器”,它将以上所有部分(声学模型得分、语言模型得分、发音词典路径)结合起来,在一个巨大的搜索空间(所有可能的词序列)中,快速找到最优的文本输出

  • 常用技术加权有限状态转换器(业界标准工具)或束搜索

关键技术挑战

  1. 说话人多样性:口音、语速、年龄、性别差异。
  2. 环境噪音:背景音乐、他人谈话、车辆噪音等。
  3. 口语化与上下文:含糊发音、犹豫词(“呃”、“那个”)、口语语法、指代、领域专有词汇。
  4. 资源稀缺:对于小语种或特定领域(如医疗),标注数据难以获取。
  5. 实时性要求:许多应用需要低延迟的识别。

主要应用

  • 智能助手:Siri、小爱同学、天猫精灵等。
  • 实时字幕/会议转录:Zoom、腾讯会议的字幕功能。
  • 语音输入法:微信语音转文字、搜狗输入法语音输入。
  • 语音搜索/控制:智能家居控制、车载语音系统。
  • 客服质检与分析:自动分析通话内容,进行服务质量监控。

重要发展趋势

  1. 端到端模型:简化系统流程,降低构建复杂度,性能不断提升。
  2. 自监督预训练:利用海量无标注语音数据(如Wav2Vec 2.0, HuBERT)进行预训练,然后在少量标注数据上微调,极大降低了对标注数据的依赖。
  3. 多模态融合:结合唇读(视觉信息)来提高嘈杂环境下的识别率。
  4. 个性化与场景自适应:让系统快速适应特定用户的口音或特定场景的声学环境。
  5. 流式识别与低延迟优化:满足实时交互应用的需求。

语音识别是一个从物理声波抽象文本的复杂转换过程,其核心在于利用声学模型理解“声音是什么”,利用语言模型理解“文本应该是什么”,并通过解码器将两者高效结合,最终在复杂多变的环境中输出最可能的文本结果,当前,深度学习,特别是端到端和自监督学习技术,正在持续推动该领域向前发展。

标签: 关键词 核心部分

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00