语音,作为人类日常交流和信息传递的核心媒介,不仅承载着文本信息,还蕴含着所要传递的情感状态。相同的文本,在不同的情感状态下被表达时,其背后的意义也会大相径庭。因此,在人际交往中,准确识别说话人的情感状态显得尤为关键。近年来,随着科技的飞速发展,人机交互领域的相关技术不断涌现并被广泛应用。这些技术让人类的生活变得更加便捷和高效。然而,值得注意的是,虽然人机交互产品已经渗透到生活的方方面面,但大多数产品仍然只是机械地执行人类的外在指令,而能够真正理解并判断人类内在情感状态的产品却屈指可数。鉴于人机对话在人机交互中的广泛应用,如何让机器精准地识别说话人的情感状态,已成为当前研究的热点。在这一背景下,语音情感识别技术应运而生,为解决这一问题提供了可能。
应用现状
5月13日凌晨, OpenAI向世界推出了其革新的GPT-4o模型。相较于先前的版本,GPT-4o不仅在文本生成与语音处理等方面表现出非凡的性能,还加入了情感识别的功能。发布会上,两位高管做了演示:它能够从细微的喘气声中精准地捕捉到“紧张”的情绪,随即引导个体进行深呼吸以平复心境;更可根据用户的指令,灵活地调整语调,以适应不同的交流氛围。借助深度学习和大数据分析,GPT-4o能够更为细腻地洞察用户的情绪波动,为情感分析提供了前所未有的精准数据支撑。
由日本公司Smartmedical推出,并入驻Apple Watch的EmoWatch软件可以通过追踪用户的语音方式来判定用户的情绪,并且不受语言的限制。该应用程序通过分析多种语音属性(如语调、音调、速度和音量),从用户的声音中识别和跟踪用户的情绪,并描述出用户是否产生以下四大情绪中的一种——即生气、镇定、高兴和悲伤。[1]
国内的想象科技利用语音情感AI,综合心理、精神疾病等多学科知识交叉运用,基于权威EQ专家所标记的350多万个情感音频数据,想象科技推出了智能语音心理健康平台健康欧。只需8秒语音,健康欧便可识别用户情绪,提供可视化的情绪卡片解读,并生成声音治愈、深度放松、呼吸减压相结合的个性化情绪调节方案,利用3分钟释放大脑压力,恢复身心的最佳状态。[2]
研究现状
基于语音声学特征的语音情感识别方法通常是从语音信号中提取一些人工设计的特征,将这些特征送入分类器完成识别任务。对于该语音情感识别方法而言,情感特征是语音情感识别中的重要环节,提取的情感特征直接影响最终的情感识别性能。常用的语音情感特征主要分为三大类:韵律特征、谱特征和音质特征。韵律特征是指基频、音强、音长、音调、停顿、语速、时长等特征,它在语音情感识别领域已得到了广泛的认可。谱特征一般认为是反应发声运动和声道形状变化的特征,具体表现为频谱能量的分布(共振峰)、线性预测倒谱系数(Linear Prediction Cepstral Coefficients, LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)等特征。
[3]如Huang等人[4]分析了不同情感状态下语音信号特征的差异,并评估了这些特征在识别过程中的重要程度。通过排序分析,他们发现基频(F0)、音强以及时长等特征在区分不同情感时具有较高的贡献度。陈逸灵等人[5]采用了一种融合的方法来进行语音情感识别。他们结合了MFCC(Mel频率倒谱系数)和语谱图这两种特征提取技术,并运用了SVR(支持向量回归)模型作为预测工具。这种综合方法相较于单独使用MFCC,在语音情感识别的性能上取得了更为显著的改进。
近年来,深度学习技术的迅速发展极大地推动了语音情感识别的研究。在这一背景下,端到端学习框架模型成为了该领域的热门选择。这些模型通过深度神经网络,直接从原始语音数据中自主学习并提取含有情感信息、二维空间信息和时序上下文信息的情感表征形式而无需依赖传统的人工特征提取。这种端到端的学习方式使得模型能够更好地适应和满足情感识别任务的需求,从而提升了识别的准确性和效率。比如,Tri-Georgis等人[6]借助Convolutional Neural Networks(CNN)从原始语音信号中自动捕获语音信号的情感表征,进而利用LSTM网络深入学习其中的时序信息。该方法有效地结合了CNN在特征提取方面的优势与LSTM在处理序列数据时的能力。
Li等人[7]将自注意力机制引入语音情感识别任务中,该方法直接从语音谱图中提取情感特征,并利用自注意力机制聚焦于语音中与情感密切相关的部分,从而提高了情感识别的准确性。此外,通过引入多任务学习技术,该方法还将性别分类作为辅助任务,进一步增强了语音情感识别的性能。
[1] http://eng.smartmedical.jp/news/detail/442
[2] https://www.sohu.com/a/434460373_100137374
[3] 陶建华,陈俊杰,李永伟.语音情感识别综述[J].信号处理, 2023, 39(04):571-587.
[4] HUANG Jian, TAO Jianhua, LIU Bin, et al. Learning utterance-level representations with label smoothing for speech emotion recognition [C]//Interspeech 2020. ISCA:ISCA,2020:4079-4083.
[5] 陈逸灵,程艳芬,陈先桥,等. PAD三维情感空间中的 语音情感识别[J]. 哈尔滨工业大学学报, 2018, 50 (11):160-166
[6] TRIGEORGIS G, RINGEVAL F, BRUECKNER R, et al. Adieu features?end-to-end speech emotion recognition using a deep convolutional recurrent network [C]// 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China. IEEE, 2016:5200-5204.
[7] LI Yuanchao, ZHAO Tianyu, KAWAHARA T. Improved end-to-end speech emotion recognition using self-attention mechanism and multitask learning [C]// Interspeech 2019. ISCA:ISCA, 2019:2803-2807.
本文暂时没有评论,来添加一个吧(●'◡'●)