哎呀妈我说,您可真是俨然一副啥都不知道的样子,这个叫"特征集"的玩意儿可不止是用来摆设的,说白了,它就跟个超级神探似的,能如此精确地捕捉到讲话者真实的心情状况,比如说这个人是在发火,还是心情舒爽,又或者是觉得心里憋屈,正愁眉苦脸呢等等。现在终于让你见识到了什么叫做神器效应了吧?
哎哟妈你可不晓得这个东西比咱们想象中的还有坑爹,弄些基础的像基频、能量啥的大家都懂得,就是那些啥频率,能量之类的。但是要说起谐波谐振峰,若是你真要把它数出来,捋上半天也不一定能数得清。再加个语速、音量和语调这些花样,可是全都在里面。想要搞懂这些门道吗?别急,咱们只需把语音信号给大卸八块,找找看这些特点藏在哪,然后拿它们来喂养我们的感情识别模型,这么一琢磨,任务不就完成了!到那时,咱们就能看清说的这位大哥或大姐到底是啥心情!
得嘞,你瞅瞅这货长这样子,像是邻居家那个傻乎乎的弟弟一样。可狗蛋儿告诉你,这家伙却隐藏着一个让人咋舌的牛逼技术,那可不就是那个什么叫 EQ 的情绪识别功能吗?这里头,还埋伏着各种好玩儿又有料的信号含义我就跟你叨叨一些例子开开心呗,就像刚才我们俩聊的那啥,那个瞅不见摸不着的“频率”,它就是咱们听觉世界里声音波形的密码本儿。只要咱们把这块儿琢磨透了,估摸着就能大致知道这位哥们姐们现在是咋个儿心情。你得多听听这感情这个东西,要是起变化的话,那频谱特征也得跟着变脸儿啦~比如说那种火爆性子的朋友,他那儿的频谱高峰可能就得比平常多上那么一毫点儿哟~
就在这里,我得给你们介绍一个超厉害的玩意儿——这个叫做“flux”的玩意儿,就像是你随时带在身边的一双耳朵,能看清楚声音的频谱咋随着时间跳动的。哎呀妈你肯定想不到吧?我们的情绪可是能够让这频谱炸裂开来,就像是突然冒出来的高能量峰值,可能就像是给自己放了个大招,把压力释放得干干净净的,也有可能直接吓得咱们心脏病都要出来了。再来说说那个特别的ZeroRate,它的主要任务就是看看波形走过零线的次数,这样我们就可以算出音频变化的快慢啥的。神器们全都搭档在一起,咱们分分钟就能读懂音频里面那些复杂的情绪变化!
哎呦,你要是还以为我们这堆特性就这样简单结束了?那你真是太单纯到让人笑岔气儿咯!还有一个牛逼哄哄的亮点是你没发现出来,叫做“MFCCs”的这货,别看长得毛手毛脚十分简洁,但是知道吗,人家可不是吃素的,反而像舞台上的舞者,特别擅长描绘声音频谱的各种独特个性!不管是你那种黏糊糊的小情绪还是超级开心得像被闪电劈中一样的感觉,通通都能给你摆弄出一堆五花八门的MFCCs变脸表演出来再说说,还有一种叫音调的特性也不能让咱给忽略过去!它可是音频里的天气预报员,能够准确无误地告诉你正在听的歌曲究竟是哪类风格,所以了解好音调的时间和频率我们就能更好地品味到音频背后包含的那丰富多彩的情绪。
今天咱要聊的话题一说大家肯定都知道,就是这个特征集,它简直就是咱们处理音频情感识别的一个帮手中的帮手,这里面可是藏着不少好用的东西,都是为了把你嘴巴里那点儿喜怒哀乐给好好描绘出来。比如说这个频率特征,那感觉就像是咱们平常去医院做检查,拿到那些体检报告似的,那些检查项目可是包罗万象,什么声音频谱呀、频谱质心啦、频谱边缘还有频谱通量等等等等。这些东西就能告诉我们你说话时声音到底是什么样儿的,像是说的高啊低啊弯啊直,响亮还是细声还是嘹亮还是轻声细语。
咱们今儿继续唠唠时域那点儿新鲜事儿那个让你看了眼珠子都要掉下来的,boys and girls们你们知道是什么嘛?对,那就是声音时间长度呀、力气又有着那么一丢丢大呀、过零的次数瞎嚷嚷的事还跟上回那个声音比较比看,看出个头绪没。就像是那个抽响的小橡皮筋,磨蹭着画出了声音波形各种各样的起起伏伏和大小程度什么的。比如说咯,这个声音大到哪里去了呢?那个生气模样究竟足不足够呛的呢?节奏稳不稳定的啊?品味深刻不深刻的啊?全是从这里一点点抠出来的。然后再说一说那个梅尔频率倒数系数,就是咱们听过的那个MFCCs,真的是有意思的互动环节,竟然能抓到一些声音里面蕴藏的频率表达啊、啦啦队波浪式跳舞啥的东东之后,咱们就来讲讲那个出场频率简直高到爆表的谱包络特色,还是由两位大哥大姐来主演,他们就是咱们众所周知的线性预测系数(LPCs)和倒谱包络系数(LPCCs),这俩兄弟姐妹可是真的清楚地掌握了声音的啦啦队波浪式舞蹈结构和频谱包络形状等各种信息的高手!
咱们好好聊聊嘞,这玩意儿咋叫特征集呢?听明白没?那就是把全世界的消息都给梳理整理出来,仔细分析琢磨琢磨,就好比在一堆柴火里找出那几根最棒的木棍子呐。这么搞下来,那些咱们平常要靠瞎猜一气的心情啊、想法,也就全都变得手到擒来了!换个说法,咱门手里就抓住了这么个让人眼前一亮、实用性超强的小东西,可以用来训练我们的人工智能,让它像探照灯一样准得不能再准地猜出录音里面到底在唱些什么戏码,真的,猜的不偏不倚又狠邪儿!再来说说这个东东在跟人跟机器打交道的时候也是超级好用的喔,比如说把它用在自动回复短信之类的地方,还有,就是能做出那种情感互动的功能,简直神了今儿我给你讲了这么多,有没有感觉有点儿启发呢?所以咯,这特性集可是语音情感识别技术的神器里面包含了各种各样的声音和语言上的小规律特征,能帮我们一眼就分辨出人家到底高兴还是难过。只要稍微研究一下这些特点,咱们就能够准确地看出别人讲话时的心情,还能用到机器学习模型和人际交往方面,是不是感觉挺厉害的?要是你对这篇文章感兴趣的话,别忘记右下角的那个小红心点一下分享出去让你的小伙伴们也跟着开开眼界儿!
本文暂时没有评论,来添加一个吧(●'◡'●)