在进行识别之前,首先要理解情绪是什么,学术界主要有两种模型:

-
离散情绪理论:
- 认为存在几种基本的、普适的、跨文化的情感。
- 艾克曼的六种基本情绪:快乐、悲伤、愤怒、恐惧、厌恶、惊讶,这是目前大多数计算模型的基础。
- 优点:简单直观,易于分类。
-
维度情绪理论:
- 认为情绪可以由几个连续的维度空间来描述。
- 常见的二维模型:
- 效价:从负面(不愉快)到正面(愉快)。
- 唤醒度:从平静(低能量)到兴奋(高能量)。
- 有时会加入第三个维度支配感(从被控制到掌控)。
- 优点:能描述更复杂、微妙的情感状态。
情绪识别的信号来源(多模态)
情绪会通过多种渠道表达出来,因此识别也对应不同的数据模态:
-
文本模态:
- 分析对象:书面文字、对话记录、社交媒体帖子。
- 线索:词汇选择、表情符号、标点符号、句法结构、主题。
- 技术:情感词典、机器学习(如SVM)、深度学习(如LSTM, Transformer/BERT)。
-
语音模态:
- 分析对象:语音的声学特征。
- 线索:
- 韵律特征:音高(语调)、音强(响度)、语速、停顿。
- 音质特征:声音的颤抖、呼吸声、频谱特征。
- 技术:提取MFCC、韵律特征,使用CNN、RNN等模型进行分类。
-
视觉模态(面部表情):
- 分析对象:人脸图像或视频。
- 线索:面部动作单元(如挑眉、皱眉、嘴角上扬)。
- 技术:
- 传统方法:基于特征点(如眼睛、嘴巴的位置变化)。
- 深度学习方法:使用CNN直接对图像进行端到端学习。
- 重要标准:面部动作编码系统(FACS),将面部肌肉运动分解为“动作单元”,是科学分析面部表情的黄金标准。
-
生理信号模态:
- 分析对象:身体直接产生的电信号或物理信号。
- 线索:
- 脑电图:大脑电活动。
- 心电图/心率:心跳节奏和变化。
- 皮电反应:皮肤导电性(与唤醒度密切相关)。
- 肌电图:肌肉电活动。
- 呼吸:呼吸频率和深度。
- 优点:难以主观掩饰,更能反映真实情绪。
- 缺点:需要佩戴设备,侵入性强,不便于日常应用。
核心技术流程
无论基于哪种模态,情绪识别系统通常遵循以下流程:
-
数据收集与标注:
- 收集带有情感标签的数据集(如“快乐”的语音、“愤怒”的文本)。
- 标注是最大挑战之一,需通过多人标注、专家标注来提高信度。
-
预处理:
- 文本:分词、去除停用词、词干提取。
- 语音:降噪、分帧、归一化。
- 视觉:人脸检测与对齐、归一化、数据增强。
- 生理信号:滤波去噪、分段。
-
特征提取:
- 从原始数据中提取与情绪相关的代表性特征。
- 这是传统方法的核心,深度学习可以自动学习特征。
-
模型训练与分类/回归:
- 分类:如果是离散情绪,则训练分类器(如SVM, 随机森林, 神经网络)将输入归到某一情绪类别。
- 回归:如果是维度情绪,则训练模型预测效价和唤醒度的连续值。
-
融合与决策(针对多模态系统):
- 早期融合:在特征层面将不同模态的特征拼接,再输入模型。
- 晚期融合:每个模态单独训练模型,最后在决策层面(如概率)进行融合。
- 混合融合:结合以上两种方式的优点。
主要应用场景
- 人机交互:让机器人、虚拟助手更贴心。
- 智能客服:实时识别客户情绪,及时升级服务或安抚。
- 心理健康:辅助抑郁症、焦虑症等疾病的筛查和干预。
- 教育科技:分析学生在线上课时的专注度和困惑感。
- 市场研究:测试用户对广告、产品的即时情感反应。
- 内容推荐:根据用户当前情绪推荐音乐、电影等。
- 安防与驾驶:监测司机的疲劳、愤怒状态,及时预警。
关键挑战与伦理考量
-
挑战:
- 标注主观性:情绪是主观体验,标注不一致。
- 文化差异:表情和情感表达规则因文化而异。
- 个体差异:不同人表达情绪的方式不同。
- 情境依赖性:脱离语境容易误判(流泪可能是喜悦或悲伤)。
- 掩饰与伪装:人们可能隐藏真实情绪。
-
伦理考量:
- 隐私侵犯:无感、持续的情绪监测可能严重侵犯个人隐私。
- 滥用风险:用于审讯、雇佣歧视、政治操纵等。
- 准确性偏见:模型在不同种族、性别群体上性能不均,可能导致系统性的不公。
- 决定论风险:技术可能被用来“定义”一个人的情绪,忽视了情绪的复杂性和流动性。
- 知情同意:用户往往不知道自己的情绪正在被分析和利用。
情绪识别是一门让机器“读懂人心”的技术,其基础建立在心理学理论之上,通过多模态信号分析来实现,尽管技术进步迅速,但它本质上是一个从外部可观测信号推断内部复杂心理状态的近似估计问题,而非绝对精确的科学,在推进技术的同时,必须对其社会影响和伦理边界保持高度警惕和持续讨论。
希望这份基础知识梳理能帮助你构建起对情绪识别领域的清晰框架!